采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师你好,我爬虫某一个全网网站信息,发现总是爬取了很多重复信息,这怎么弄?
首先url去重只是一种去除重复的策略,但是很多时候可以根据内容的id去重 你是否对url去重了还是有重复的内容?
是的,我用的是scrapy单机爬虫QQ音乐全网网站信息,但发现总是爬取了很多重复信息,设定了dont-filter=False好像没用。
首先dont_filter这里是下划线,然后你看看这些不同的内容抓取的时候url是否相同呢?你在数据库设计的时候 需要设计一个列是唯一值,防止同一个id的数据多次录入
非常感谢!
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.5k 18
1.1k 18
1.4k 15
2.8k 15