老师,我最近试着自己爬取一个电影网站的种子url,这个网站必须登录后才能看到种子url。我反复看你讲的模拟登陆等课,依然不太能理解。在spiders中我已经把开始url和下一页url都提取出来并且可以爬取不需要登录的所有内容,我不太理解怎么在Middleware中通过selenium用chrome模拟登录后怎么把登录状态给到Spider,让Spider能够抓取登录后才能看到的内容。希望老师能帮忙解答一下,这个问题困扰了我好几天了…尝试了很多方法还是失败…
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程