采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
这是拉钩的爬虫
302是因为请求过快 拉勾判断为爬虫然后重定向了 限制一下爬虫速度吧
老师 ,我的知乎和拉钩设置延迟10,换过ip,还是会302,jobbole爬着爬着就变得很慢,然后就停了,简直崩溃。。。。这些问题在保存mysql还不太严重,保存到elasticsearch非常严重,爬虫几乎瘫痪。。。
你可以看一下302之前请求的url 里面有ip 就是判定你为爬虫了 你可以先重启一下家里的路由器 切换一下ip, 或者使用一下西刺网上的https代理看看还有没有问题
老师我解决了了,但是又有一个问题,知乎进不去elasticsearch, debug到pipline的时候 在item.save_to_es()的时候会正常跳进item执行save(),但是到了save()的时候跳进了current.result = failure.Failure(captureVars=self.debug)
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.5k 30
2.4k 18
898 18
1.2k 15
2.3k 15