Redis 能否标记内容是否已经采集-慕课网

1回答

bobby 2017-07-10 09:52:09

亲为什要通过内容去重呢，一般html内容非常大如果通过这种内容去重肯定没有那么大内存的机器来完成啊，而且你如果已经第二次爬取到内容了为什么要去去重呢通过内容去重说明你已经爬取了内容了，尽然已经爬取内容了为什么还要去重呢，完全没有去重的效果啊，即使需要去重也是通过数据库去重啊，爬虫都是通过url去重的

0 回复有任何疑惑可以回复我~

收起回答

提问者笑看风云号 #1

我的意思并不是通过内容去重，我的意思是说，比如 我采集了某站10000条URL，然后采集内容的时候采集到 5000 条的时候，我把 Redis 重启了，那么这已经采集的 5000 条的数据会不会重新抓取内容页？

回复有任何疑惑可以回复我~ 2017-07-10 10:00:53

bobby 回复提问者笑看风云号 #2

后面课程中我也会讲到scrapy的暂定和重启 会讲到这个问题的， 而且后面的scrapy-redis会解决这个问题 因为所有的request队列都是放到redis中的， 不会有你说的问题

回复有任何疑惑可以回复我~ 2017-07-11 09:06:02

Redis 能否标记内容是否已经采集

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空