采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,我的爬取它会自动跳转到登陆界面,是不是因为提取网址的时候进入到了登陆的网址,或是其他的什么原因?
这个应该是服务器某些页面只有登录才有访问权限 或者判断你为爬虫 让你重新登录验证, 爬取的时候使用ip代理 或者动态切换user agent 以及注意下一下爬取速度, 这些技术后面都会讲到的
老师,那我想写个登陆程序加在crawlspider里面,但不知道该写在什么地方。能不能在提取了连接后再加入登陆程序呢?但是感觉这样逻辑也不通顺…
就是现在没办法跟着你敲代码了
在后面章节中介绍的downloadmiddleware中可以在process_response中添加判断是否被跳转了 如果是就模拟登录 然后参考默认的cookie的middleware将cookie加入到scrapy中去
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.7k 30
2.5k 18
1.1k 18
1.3k 15
2.7k 15