请稍等 ...

selenium 集成到scrapy中登录问题

老师，我最近试着自己爬取一个电影网站的种子url，这个网站必须登录后才能看到种子url。我反复看你讲的模拟登陆等课，依然不太能理解。在spiders中我已经把开始url和下一页url都提取出来并且可以爬取不需要登录的所有内容，我不太理解怎么在Middleware中通过selenium用chrome模拟登录后怎么把登录状态给到Spider，让Spider能够抓取登录后才能看到的内容。希望老师能帮忙解答一下，这个问题困扰了我好几天了…尝试了很多方法还是失败…

Huston 2018-11-09 17:11:11

源自：9-4 selenium集成到scrapy中

1238

收起

提交取消

1回答

bobby 2018-11-11 12:16:44

在知乎的章节中我讲解过通过selenium登录知乎后将cookie设置给任何一个request就可以在后续的所有request中都能获取到这个cookie，我估计你是对这个地方不理解，这是如何做到的，这是因为scrapy有一个默认的middleware，这个组件其实会从之前的request中提取所有的cookie并设置给后面的每一个request中，所有这个登录状态后续的所有request都能复用，如果你对这个源码有兴趣的话可以看看这个