请问是否有任务结束后保留JOBDIR文件的方法?-慕课网

1回答

bobby 回答被采纳获得+3积分 2019-09-26 12:56:22

不清空 spider就会一直从这里取停止不了。所以不应该考虑不清空queue，而是你自己写一个脚本。每天定时将你需要重抓的url生成指纹自己放入到这个队列中就行了

0 回复有任何疑惑可以回复我~

提问者慕粉1946152704 #1

不好意思, 老师我说错了, 我说的不是requests.queue, 应该是存放指纹的文件requests.seen. 我觉得最好是想个办法让spider结束后保留requests.seen里的数据

回复有任何疑惑可以回复我~ 2019-09-26 18:39:28

bobby 回复提问者慕粉1946152704 #2
```
课程后面讲解的scrapy-redis就能解决这个问题
```
回复有任何疑惑可以回复我~ 2019-09-28 17:01:56

提问者慕粉1946152704 回复 bobby #3

老师, scrapy-redis的课程中有提到一个schedule_flush_on_start变量可以控制这个指纹是否清空, 但是目前我不需要用分布式和redis, scrapy本身有能控制清空指纹的方法吗?

回复有任何疑惑可以回复我~ 2019-09-28 21:30:20

请问是否有任务结束后保留JOBDIR文件的方法?