redis-scrapy 分布式爬虫之缓存问题-慕课网

提问者慕粉171731593 2021-05-30 19:17:21

老师。我目前遇到一个匪夷所思的问题。

我使用的redis-scrapy框架做的分布式爬虫。启动程序后，执行大概30-40分钟后。后面的请求全部都是400了。我只要重启程序后。接着后续缓存的请求执行，就没有问题。我分析的结果是。不是对方网站的问题。而且scrapy框架哪的问题。或者说我没有配置好。具体哪没配好我找不到原因。

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

一般原因都是对方网站的问题，你抓取的是什么网站？你有没有试过控制爬取的速度，看看是不是运行的时间会更长一些

回复有任何疑惑可以回复我~ 2021-06-01 22:55:59

提问者慕粉171731593 #2

起初我也是这么想的。控制时间都设置过。3，5秒都尝试过。并且我还用了代理。。。起初我也是想是不是对方网站把我禁掉了。从开始一直400后，我只是重启一下就可以访问。这证明对方并没有禁我。所以这是我想不明白的地方。

回复有任何疑惑可以回复我~ 2021-06-02 10:09:04

提问者慕粉171731593 2021-05-30 19:15:53

老师。我已经解决了上面的两个问题。首先是我先分享碰到这两个问题的原因。第一关于redis连接失败的问题。首先我的redis是docker容器运行的。我在启动的时候时候设置docker容器保持开启状态。也就是说只要redis的docker挂掉了。他就会重启容器。爬虫确实把redis的docker容器给跑挂了。之后容器自动启动。导致看到的效果就是redis活的。scrapy连不到redis。第二个问题是执行了回调函数。但回调的函数不正确。目前我通过设置SCHEDULER_PERSIST=True后。没遇到过了。

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

非常好的踩坑经验，分享给有需要的同学，特别是SCHEDULER_PERSIST=True的设置。不过建议再去深入的看一下SCHEDULER_PERSIST=True相关的源码，看看实现原理是什么

回复有任何疑惑可以回复我~ 2021-06-01 22:54:19

bobby 2021-05-27 22:37:21

不是指定的回调，那被回调到什么函数呢？还是不执行回调函数？
这里的拒绝连接是对应的网站抓取不了还是说连接不到redis了？

0 回复有任何疑惑可以回复我~

收起回答

redis-scrapy 分布式爬虫之缓存问题

正在回答回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

redis-scrapy 分布式爬虫之缓存问题

正在回答 回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

正在回答回答被采纳积分+3