请稍等 ...

只能爬取文字，不能下载文件 | 执行顺序问题

bobby老师，您好。

需求是这样的：
一个小众游戏录像网站，想要爬取一些【对局信息简介】（就在页面上显示着）和【对局录像文件】（需点击下载）。

遇到的问题：
当我测试的时候，只给scrapy提交一条url，可以下载简介和录像。
但是，当我提交给scrapy一个url列表，则只能爬取简介，以及最后一个url的录像。

我试着分析了一下原因：
response只保留了一些"死"的信息，但是并没有维持和网页的会话？因此scrapy可以解析出response中的信息，却无法通过response发起下载请求？

那么，bobby老师有什么解决的思路吗？

有什么办法让scrapy一次只发送一条url，处理完爬取网页和下载文件的两个任务之后，再发送下一条url？（而不是像现在这样保存很多死的response）

还是说，下载录像的时候必须要再重新发起一次请求？需要再专门写一个下载录像的parse函数吗？

慕粉3883702 2022-05-11 17:41:50

源自：5-1 session和cookie自动登录机制

907

收起

提交取消

1回答

bobby 2022-05-12 13:31:07

scrapy本身是一个异步框架，你这个需求是一个同步抓取需求，和scrapy本身的底层框架冲突，下载文件和下载视频都是异步的，无法把两者统一起来，要想完成这个功能需要读一下底层的download源码或者自己写这一部分逻辑

0 回复有任何疑惑可以回复我~

收起回答

提问者慕粉3883702 #1

好的，谢谢bobby老师，那我先用scrapy抓取视频的简介和视频的链接。

然后再另外在python里面手写一个下载视频的逻辑，两个爬虫分开，分两次跑。

谢了。

回复有任何疑惑可以回复我~ 2022-05-12 14:36:05

bobby 回复提问者慕粉3883702 #2

这个思路不错，还有个思路是将这些放入redis或者kafka然后另一个爬取读取kafka的数据然后爬取后修改记录

回复有任何疑惑可以回复我~ 2022-05-14 19:49:20

相似问题

MobileNet文件不能下载

老师scrapy爬取的数据是否都不按顺序？如何解决？

顺序问题

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

对于汉字的反爬如何解决呢？

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

只能爬取文字，不能下载文件 | 执行顺序问题

正在回答回答被采纳积分+3

1回答

相似问题