采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
拉勾网全网爬取问题 用crawl模板全网爬取的时候,如果不用cookie,就会出现登录重定向,但是如果用模拟登录,就会出现utrack重定向,这样就有点矛盾了。如何爬取呢?
我在想会不会是网页结构是否并不固定,而是动态改变的?
其实utrack是一个验证码的页面,也就是说发现你账号异常,会让你输入验证码,出现302也就是发现你是爬虫就让你登录,你可以设置一下抓取频率,但是规律的频率也容易被发现。所以scrapy会提供随机的抓取频率 https://www.jianshu.com/p/d78624ea4f87 你可以看看这个
我的也是302 utrack, 用了随机UA随机延时 , 延时10秒,但是爬一会还是会有302
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.6k 30
3.0k 18
1.7k 18
1.9k 15
3.5k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号