请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于filtered duplicate request的疑惑?

老师,下面日志中这个filtered duplicate request让我很疑惑:
图片描述
这些request看上去像是在 dont_filter=False 的情况下被过滤掉的,但是我的spider脚本如下:
图片描述
这些被过滤掉的URL, 例如 hz.lianjia.com/chengjiao/xihu/ 明明是第一次取,却被filtered,看上去很像是由于和 hz.lianjia.com/chengjiao/ 重了而被去重的.
但是这两个URL明显是不一样的.不符合scrapy的去重规则呀, 请问老师这个URL被filtered的原因是什么?

正在回答

3回答

bobby 2019-09-26 12:41:18

这种url明显不是一个url,指纹肯定不一样。如果说第一个访问后第二个不会访问了需要确保一下是不是第二个url已经访问过导致这个url的指纹会被放到缓存中

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉1946152704 #1
    老师, 问题有修改, 请您过目?
    回复 有任何疑惑可以回复我~ 2019-09-26 19:25:11
qq_慕侠6486208 2021-04-27 10:07:33

请问你这个问题解决了吗?我也遇到了类似的问题,找不到解决的办法

0 回复 有任何疑惑可以回复我~
  • bobby #1
    上面该同学提到的两个url不是说因为这两个url去重的,refer的意思是当前的url的前一个url是refer中的url,也就是当前的url是通过refer的url中点击过来的
    回复 有任何疑惑可以回复我~ 2021-04-27 22:10:59
bobby 2019-09-28 17:04:00

你试一下在每个request的参数中加上参数 dont_filter=False试试会不会被过滤掉

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉1946152704 #1
    老师,代码中我用的是crawlspider,好像没有重写request的机会,而且request的dont_filter默认是false的
    回复 有任何疑惑可以回复我~ 2019-09-28 21:29:16
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信