关于去重的两点疑惑-慕课网

1回答

bobby 2017-07-12 09:32:51

scrapy的暂停和重启我在scrapy进阶中讲过，如果按照那种方式启动和停止都不用担心中间的数据丢失，因为这些数据都会保存到文件中，下一次重启会从这些文件加载， scrapy-redis的所有这些中间状态都是保存在redis中的更不会丢失，这些我在课程中都详细的讲过的
对某一个url在yield request的时候，设置一个参数 dont_filter=True后及时这个url已经存在在去重队列中也不会被过滤掉的，你是不是课程中跳着看的，这些内容我都讲解过的

0 回复有任何疑惑可以回复我~

提问者 RiverMa #1

不是跳着看的，暂停后重启的保存机制也理解。疑惑的是爬虫全爬完了，下次再爬的时候的情况。是不是是可以通过信号在爬虫关闭的时候把爬过的地方存下来，再打开的时候再加载进来？

回复有任何疑惑可以回复我~ 2017-07-12 09:59:21

bobby 回复提问者 RiverMa #2

你说的是将已经爬取的url保存下来吧， 你可以参照scrapy暂定的那个逻辑源码自己修改一下， 如果你用scrapy-redis的话就不会存在这个问题， 因为所有信息一致都是保存在内存中的， 这些数据是不会丢失的

回复有任何疑惑可以回复我~ 2017-07-13 09:07:05

关于去重的两点疑惑