请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

如何控制爬虫爬取的速度

爬取拉钩的时候总会被判定为爬虫,我在setting文件下设置了

DOWNLOAD_DELAY = 3

感觉已经非常慢了,依然出现爬去职位详情页的时候被判定为爬虫。
1、除了在setting中设置DOWNLOAD_DELAY外还有什么方式控制速度呢?
2、是不是其他某些方面没有注意到被判定为爬虫呢?图片描述

正在回答

1回答

bobby 2019-01-24 14:52:51

你这里有没有试过用浏览器打开拉钩, 如果浏览器能打开那证明这里的反爬不一定是因为触发了访问频率或者ip限制引发的

0 回复 有任何疑惑可以回复我~
  • 提问者 _不辞而别 #1
    打开过,浏览器访问正常,用scrapy爬的时候一到职位详情页就会被识别为爬虫
    回复 有任何疑惑可以回复我~ 2019-01-24 20:01:22
  • bobby 回复 提问者 _不辞而别 #2
    这里是通过ip访问频率来限制的,你可以将时间设置的更大一些 比如10秒一次 而且需要时随机的。 https://stackoverflow.com/questions/41904285/python-scrapy-how-to-do-a-random-delay-between-each-request-in-a-single-spider 你可以看看这个
    回复 有任何疑惑可以回复我~ 2019-01-27 10:13:25
  • 提问者 _不辞而别 #3
    非常感谢!
    回复 有任何疑惑可以回复我~ 2019-03-05 23:07:42
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信