多页面爬取时，如何设置阈值，超过后先进行下载？-慕课网

while True: if self.count == self.total_count: print("download over") data = self.reload_cursor(self.count) base_url = "https://www.xxx.info" code = str(data["journal_link"]).split('/')[-1] url = base_url + code meta = { "journal_code": code, "baseid": data["baseid"], "journal_img": data["journal_img"], "journal_link": data["journal_link"] } yield scrapy.Request(url, dont_filter=True, meta=meta)

1回答

bobby 2021-07-29 16:57:32

你这个问题算是一个不错的问题，这也是很多其他同学应该会遇到但是没有在意的问题，你要这样理解scrapy：

scrapy可以简单的理解为一个单线程程序，所以你的parse和parse_detail都是在一个线程中运行，也就是说这俩本质上来讲是有先后顺序的，当parse执行完成以后就去执行parse_detail，但是parse很多很猛啊，parse函数只管将自己的url交给scrapy的download下载器，你的url一交出来立马就放入到downloader的队列了
所以parse函数几乎可以很快将这么多的url全部放入到downloader队列，downloader队列就慢慢从队列从取啊，这个时候由于你的parse函数放入队列的数据太快了，导致全部是都是parse中的url，至于已经提交出去的url由于服务器的响应肯定比本地parse执行慢，所以就有大量的url堆积在downloader的队列中
所以你其实应该是想将一个url交给downloader后先下载完成然后再继续交出后续的url
这个其实方案还是挺多的，首先scrapy本身由于只是一个并发框架，所有无法知道你自己想要的顺序是什么，所有可以自己来做
做法比较简单，你设置一个全局的queue或者使用python自带的condition机制，甚至更简单的方式就是使用一个全部变量比如total，你在parse中交出去一个或者10个url以后，就一直等着这个queue或者condition是否被通知到了，这个时候你的parse_detail函数就负责去每次将total+1，这样你的parse中不停的while判断total是否达到了10，一旦到达了就立马继续yield新的url

1 回复有任何疑惑可以回复我~

收起回答

提问者 weixin_慕盖茨9032018 #1
```
好的，谢谢老师
```
回复有任何疑惑可以回复我~ 2021-08-02 17:59:19
慕运维2948618 #2
```
使用Request的priority参数调优先级会不会更加方便？
```
回复有任何疑惑可以回复我~ 2022-02-12 00:59:53

bobby 回复慕运维2948618 #3

priority 可以提高优先级，但是优先级动态性，比如哪个url的优先级应该设置为多少自己必须能够管理，所以不论是否使用优先级队列，都应该知道scrapy本身的一些原理

回复有任何疑惑可以回复我~ 2022-02-13 19:18:23

多页面爬取时，如何设置阈值，超过后先进行下载？

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空