请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

Redis 能否标记内容是否已经采集

Redis 除了能用来管理URL和去重,能否标记URL对应的内容页是否已经采集的这样的情况呢?或者用啥方式来操作内容是否已经采集的情况呢?

正在回答 回答被采纳积分+3

1回答

bobby 2017-07-10 09:52:09

亲 为什要通过内容去重呢, 一般html内容非常大 如果通过这种内容去重 肯定没有那么大内存的机器来完成啊, 而且你如果已经第二次爬取到内容了 为什么要去去重呢 通过内容去重说明你已经爬取了内容了, 尽然已经爬取内容了为什么还要去重呢,完全没有去重的效果啊, 即使需要去重也是通过数据库去重啊, 爬虫都是通过url去重的

0 回复 有任何疑惑可以回复我~
  • 提问者 笑看风云号 #1
    我的意思并不是通过内容去重,我的意思是说,比如 我采集了某站10000条URL,然后采集内容的时候采集到 5000 条的时候,我把 Redis 重启了,那么这已经采集的 5000 条的数据会不会重新抓取内容页?
    回复 有任何疑惑可以回复我~ 2017-07-10 10:00:53
  • bobby 回复 提问者 笑看风云号 #2
    后面课程中我也会讲到scrapy的暂定和重启 会讲到这个问题的, 而且后面的scrapy-redis会解决这个问题 因为所有的request队列都是放到redis中的, 不会有你说的问题
    回复 有任何疑惑可以回复我~ 2017-07-11 09:06:02
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信