scrapy-redis怎么在外部进程yield到某一spider的Request中?-慕课网

1回答

bobby 2019-05-30 13:30:17

start_url只是爬虫的开始而已，爬虫的实际过程中会产生更多的url，这些url都是放到redis中的，如果想要自己写脚本就要看一下课程中中讲解到的scrapy-redis的源码中有讲解如何将request生成一个对象放入到redis中，自己用脚本模拟一下就可以驱动scrapy-redis运行了

0 回复有任何疑惑可以回复我~

收起回答

提问者慕粉3691223 #1

哦，好的，谢谢老师，之前就是不太知道怎么去 外部生成一个request进行保存.

回复有任何疑惑可以回复我~ 2019-05-30 20:40:52

bobby 回复提问者慕粉3691223 #2
```
现在知道了吗？课程中分析过这个地方的源码
```
回复有任何疑惑可以回复我~ 2019-06-01 09:47:35

提问者慕粉3691223 回复 bobby #3

谢谢，是的，我看了相关的源码,在scrapy_redis的query.py中有相应的内容，PriorityQueue.push中 有
 data = self._encode_request(request) 这个是把request对象转为data的，里面有放到redis中的数据内容，同时 序列化类是scrapy_redis\\picklecompat.py, 实际引用的类库是 pickle

回复有任何疑惑可以回复我~ 2019-06-03 16:58:20

点开查看后面4条评论

scrapy-redis怎么在外部进程yield到某一spider的Request中?

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空