请稍等 ...

如何让爬虫先把一个question下的answer都爬完之后再进入下一个question

如题，按照老师的代码爬取知乎，不断刷新数据库，发现question已经爬了几千条，并且还真在不停增加，但是answer只有几十条，并且貌似不再增加。
如何让爬虫先把一个question下的answer都爬完之后再进入下一个question？

家鸽啦啦啦 2018-09-17 11:04:46

源自：6-21 保存数据到mysql中 -3

444

收起

提交取消

1回答

bobby 2018-09-18 16:01:42

可以将scrapy的队列设置为优先级队列，将question的优先级设置高一点，但是你说的等到某一个questions下面的answer爬取完成以后再去下一个questions这个你就需要看过scrapy-redis以后去定制化了，比如遇到question的url先保存到redis中，然后遇到answer以后先判断是否抓取完成根据这个判断决定是否需要将request yield出去

0 回复有任何疑惑可以回复我~

相似问题

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

知乎爬取问题

老师，你是又开了一门爬虫课？

scrapy 怎么给每个爬虫添加进度条，显示爬取的进度？

学习爬取知乎首页所有question，发现提取网页源码的href解析出question的url是不能深度爬取全站所有question的url

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.6k 30

MysqlTwistedPipline的对象没有cursor属性

3.0k 18

知乎answer提取不到

1.7k 18

为什么知乎数据导入不到MySQL数据库中？

1.9k 15

运行 scrapy crawl jobbole 报错

3.5k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号