采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
爬取拉钩的时候总会被判定为爬虫,我在setting文件下设置了
DOWNLOAD_DELAY = 3
感觉已经非常慢了,依然出现爬去职位详情页的时候被判定为爬虫。 1、除了在setting中设置DOWNLOAD_DELAY外还有什么方式控制速度呢? 2、是不是其他某些方面没有注意到被判定为爬虫呢?
你这里有没有试过用浏览器打开拉钩, 如果浏览器能打开那证明这里的反爬不一定是因为触发了访问频率或者ip限制引发的
打开过,浏览器访问正常,用scrapy爬的时候一到职位详情页就会被识别为爬虫
这里是通过ip访问频率来限制的,你可以将时间设置的更大一些 比如10秒一次 而且需要时随机的。 https://stackoverflow.com/questions/41904285/python-scrapy-how-to-do-a-random-delay-between-each-request-in-a-single-spider 你可以看看这个
非常感谢!
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.9k 30
2.6k 18
1.3k 18
1.5k 15
3.0k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号