采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
Redis 除了能用来管理URL和去重,能否标记URL对应的内容页是否已经采集的这样的情况呢?或者用啥方式来操作内容是否已经采集的情况呢?
亲 为什要通过内容去重呢, 一般html内容非常大 如果通过这种内容去重 肯定没有那么大内存的机器来完成啊, 而且你如果已经第二次爬取到内容了 为什么要去去重呢 通过内容去重说明你已经爬取了内容了, 尽然已经爬取内容了为什么还要去重呢,完全没有去重的效果啊, 即使需要去重也是通过数据库去重啊, 爬虫都是通过url去重的
我的意思并不是通过内容去重,我的意思是说,比如 我采集了某站10000条URL,然后采集内容的时候采集到 5000 条的时候,我把 Redis 重启了,那么这已经采集的 5000 条的数据会不会重新抓取内容页?
后面课程中我也会讲到scrapy的暂定和重启 会讲到这个问题的, 而且后面的scrapy-redis会解决这个问题 因为所有的request队列都是放到redis中的, 不会有你说的问题
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.7k 30
2.5k 18
1.1k 18
1.3k 15
2.7k 15