请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬取重复信息

老师你好,我爬虫某一个全网网站信息,发现总是爬取了很多重复信息,这怎么弄?

正在回答

1回答

首先url去重只是一种去除重复的策略,但是很多时候可以根据内容的id去重 你是否对url去重了还是有重复的内容?

0 回复 有任何疑惑可以回复我~
  • 是的,我用的是scrapy单机爬虫QQ音乐全网网站信息,但发现总是爬取了很多重复信息,设定了dont-filter=False好像没用。
    回复 有任何疑惑可以回复我~ 2019-03-16 19:57:54
  • bobby 回复 提问者 weixin_慕函数2503942 #2
    首先dont_filter这里是下划线,然后你看看这些不同的内容抓取的时候url是否相同呢?你在数据库设计的时候 需要设计一个列是唯一值,防止同一个id的数据多次录入
    回复 有任何疑惑可以回复我~ 2019-03-18 16:36:05
  • 非常感谢!
    回复 有任何疑惑可以回复我~ 2019-03-19 11:47:37
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信