请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

请问是否有任务结束后保留JOBDIR文件的方法?

老师,我想写一个爬虫放到阿里云上, 每日定时增量爬取一遍某网站的明细数据,我在您的课上学到了配置JOBDIR的方式,但是每日爬取任务结束后, requests.queue里的文件就会清空, 导致下次调度该任务时无法去重,请问scrapy有没有可以控制任务结束时不清空JOBDIR文件的变量呢?

正在回答

1回答

不清空 spider就会一直从这里取 停止不了。所以不应该考虑不清空queue,而是你自己写一个脚本。每天定时将你需要重抓的url生成指纹自己放入到这个队列中就行了

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉1946152704 #1
    不好意思, 老师我说错了, 我说的不是requests.queue, 应该是存放指纹的文件requests.seen. 我觉得最好是想个办法让spider结束后保留requests.seen里的数据
    回复 有任何疑惑可以回复我~ 2019-09-26 18:39:28
  • bobby 回复 提问者 慕粉1946152704 #2
    课程后面讲解的scrapy-redis就能解决这个问题
    回复 有任何疑惑可以回复我~ 2019-09-28 17:01:56
  • 提问者 慕粉1946152704 回复 bobby #3
    老师, scrapy-redis的课程中有提到一个schedule_flush_on_start变量可以控制这个指纹是否清空, 但是目前我不需要用分布式和redis, scrapy本身有能控制清空指纹的方法吗?
    回复 有任何疑惑可以回复我~ 2019-09-28 21:30:20
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号