采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师, scrapy-redis的课程中有提到一个schedule_flush_on_start变量可以控制这个指纹是否清空, 但是目前我不需要用分布式和redis,但是我又希望scrapy每次爬完数据后能保留request.seen文件, 请问 scrapy本身有能控制爬虫程序结束后, request.seen文件清空的方法吗?
你这个需求我不太明白,你提到希望爬完后保留seen文件,又需要清空文件的方法是什么意思?
就是爬完后保留seen文件的方法
scrapy-redis会将所有已经访问过的url都保存在redis中,这个不满足你的需求吗?
可以满足, 但是我更希望直接用scrapy实现这个功能.
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.5k 18
1.1k 18
1.4k 15
2.8k 15