采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,我想写一个爬虫放到阿里云上, 每日定时增量爬取一遍某网站的明细数据,我在您的课上学到了配置JOBDIR的方式,但是每日爬取任务结束后, requests.queue里的文件就会清空, 导致下次调度该任务时无法去重,请问scrapy有没有可以控制任务结束时不清空JOBDIR文件的变量呢?
不清空 spider就会一直从这里取 停止不了。所以不应该考虑不清空queue,而是你自己写一个脚本。每天定时将你需要重抓的url生成指纹自己放入到这个队列中就行了
不好意思, 老师我说错了, 我说的不是requests.queue, 应该是存放指纹的文件requests.seen. 我觉得最好是想个办法让spider结束后保留requests.seen里的数据
课程后面讲解的scrapy-redis就能解决这个问题
老师, scrapy-redis的课程中有提到一个schedule_flush_on_start变量可以控制这个指纹是否清空, 但是目前我不需要用分布式和redis, scrapy本身有能控制清空指纹的方法吗?
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.7k 30
3.1k 18
1.8k 18
2.0k 15
3.6k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号