请稍等 ...

关于scrapy数据库异步操作

老师你好，请教两个关于scrapy的问题：1）yield 多个scrapy.Request出去，callback指向同一个函数，在callback函数中time.sleep, 会不会阻塞别的request的callback处理？我调试的结果：看起来会阻塞

2）yield 几十上百个scrapy.Request出去，所有request的callback里提取页面内容将item yield出去后退出。pipeline中用adbapi异步写数据库，但是异步数据库操作会随着callback跑完退出、spider关闭而终止，异步数据操作写不完上面两个问题好像相互矛盾：要等异步数据库操作完成，就得让spider不退出，要让spider不退出，就得让最后一个request的callback不退出或延时退出，但延时又会阻塞其它的request的处理。请解答，谢谢

慕婉清4097246 2019-11-27 17:04:17

源自：7-8 职位信息入库-2

1215

收起

提交取消

1回答

bobby 2019-11-28 18:25:25

确实会的，这个我也强调过在scrapy中不要用同步的方法
adbapi的好处就是可以快速的将请求发送出去，也就是快速的交给mysql去处理
整个scrapy的处理是单线程的，因为底层依赖的是twisted，所以不论是入库还是继续请求url都是在一个线程中，也就是按顺序执行的，这个也就是为什么在pipeline中不建议使用同步的方式入库的原因

0 回复有任何疑惑可以回复我~

提问者慕婉清4097246 #1

老师，可不可以这样理解：即使在callback中用一个for循环yield了多个后续的url请求出去，这些后续的url请求的callback也是同步执行的？

回复有任何疑惑可以回复我~ 2019-11-29 20:58:38

bobby 回复提问者慕婉清4097246 #2

url的下载不是同步，也是异步的，也就是即使是一个线程，你随时yield出去的request也可以被立马把请求发送出去而不用等到响应返回

回复有任何疑惑可以回复我~ 2019-12-01 13:22:29

相似问题

服务端数据库操作为什么一定要同步才会执行

项目重构异步模式那节为什么没有把Add和Delete改成异步模式？后面视频里没看到有解释

Spider 空闲的时候，如何操作才能在调用其它代码的时候不影响 Spider 继续执行？

为什么要同步数据库

增删操作为什么不需要异步化？

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号