scrapy+redis，抓取结束后，程序一直处于等待状态-慕课网

2回答

提问者笑看风云号 2017-07-13 10:27:34

    def post_news(self,spider):
        # print("当前蜘蛛的 redis_key ：" , spider.redis_key)
        # print("当前蜘蛛的 name ：" , spider.name)
 
        key_requests = spider.redis_key.split(":")[0] + ":requests"
        requests_len = self.conn.zcard(key_requests)
 
        key_start_urls = spider.redis_key.split(":")[0] + ":start_urls"
        start_urls_len = self.conn.llen(key_start_urls)
 
        if requests_len == 0 and start_urls_len == 0 :
            print("爬虫处于等待状态 开始")
            ……执行代码……
            print("爬虫处于等待状态 结束")
            end_time = datetime.datetime.now().strftime(SQL_DATETIME_FORMAT)
            print("采集开始时间：", spider.start_time)
            print("采集结束时间：", end_time)

首先在 spider 空闲的时候执行该函数，然后在该函数里面读取 redis 服务器里面对应的 start_urls 和 requests 列表的长度，当 start_urls 和 requests 列表的长度等于 0 的时候我就执行代码，如果不为 0 就不执行，不知道你说的 “用redis的命令判断request队列的长度”的代码是否是这样实现的呢？或者说有别的更方便的实现方式呢？能否贴下参考代码？？？

0 回复有任何疑惑可以回复我~

收起回答

bobby 2017-07-12 09:59:28

这里我有个疑惑为什么要让爬虫结束呢？如果队列为空爬虫就会一直等着队列有数据就直接开始爬取，这样不是很好么，停止爬虫有什么好处呢

如果一定要爬虫停止可以修改一下源码中从request队列中取数据的逻辑修改为判断队列是否为空，如果为空几秒再判断一下如果还是为空就直接退出爬虫就行了

0 回复有任何疑惑可以回复我~

收起回答

提问者笑看风云号 #1

我在下面写了一个扩展，用来判断 spider 是否处于空闲状态，但是这样我觉得还不够，我觉得应该继续判断 request 队列是否为空，但是 判断 request 队列是否为空的代码如何写呢？

回复有任何疑惑可以回复我~ 2017-07-13 10:27:24

bobby 回复提问者笑看风云号 #2
```
判断为空很简单啊 直接使用redis的命令判断request队列的长度啊
```
回复有任何疑惑可以回复我~ 2017-07-14 09:14:03
提问者笑看风云号回复 bobby #3
```
我现在贴上自己写的代码，麻烦老师看看是否合理。谢谢。
```
回复有任何疑惑可以回复我~ 2017-07-14 09:51:56

点开查看后面1条评论

scrapy+redis，抓取结束后，程序一直处于等待状态

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空