请稍等 ...

爬取重复信息

老师你好，我爬虫某一个全网网站信息，发现总是爬取了很多重复信息，这怎么弄？

881

收起

提交取消

1回答

bobby 回答被采纳获得+3积分 2019-03-16 11:00:51

首先url去重只是一种去除重复的策略，但是很多时候可以根据内容的id去重你是否对url去重了还是有重复的内容？

0 回复有任何疑惑可以回复我~

提问者 weixin_慕函数2503942 #1

是的，我用的是scrapy单机爬虫QQ音乐全网网站信息，但发现总是爬取了很多重复信息，设定了dont-filter=False好像没用。

回复有任何疑惑可以回复我~ 2019-03-16 19:57:54

bobby 回复提问者 weixin_慕函数2503942 #2

首先dont_filter这里是下划线，然后你看看这些不同的内容抓取的时候url是否相同呢？你在数据库设计的时候 需要设计一个列是唯一值，防止同一个id的数据多次录入

回复有任何疑惑可以回复我~ 2019-03-18 16:36:05

知乎爬取问题

登录后可查看更多问答，登录/注册

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

问答作业

4.8k 30

2.6k 18

1.2k 18

1.4k 15

2.9k 15