请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

如何让爬虫先把一个question下的answer都爬完之后再进入下一个question

如题,按照老师的代码爬取知乎,不断刷新数据库,发现question已经爬了几千条,并且还真在不停增加,但是answer只有几十条,并且貌似不再增加。
如何让爬虫先把一个question下的answer都爬完之后再进入下一个question?

正在回答 回答被采纳积分+3

1回答

bobby 2018-09-18 16:01:42

可以将scrapy的队列设置为优先级队列, 将question的优先级设置高一点,但是你说的等到某一个questions下面的answer爬取完成以后再去下一个questions这个你就需要看过scrapy-redis以后去定制化了,比如遇到question的url先保存到redis中,然后遇到answer以后先判断是否抓取完成 根据这个判断决定是否需要将request yield出去

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号