请稍等 ...

request去重和随机user-agent、referer

老师好，

scrapy源码中对request去重是根据request中'method+url+body+header'进行sha1计算，如果是同一个url，但使用了随机User-agent导致header不一样，那么是不是就不能去重呢？或者即使同一User-agent，不断爬取时同一URL的referer也会不一样导致header不一样。

如果是分布式爬取知乎，在不同机器上使用不同账号登录，那么cookies不一样header也会不一样，还能不能对同一URL去重呢？

Pythonist 2017-12-02 21:23:20

源自：10-6 scrapy-redis源码剖析-dupefilter.py-

1098

收起

提交取消

1回答

bobby 2017-12-04 10:52:46

这个问题问的很好，理论上是这样的但是你可以看看request_fingerprint这个函数的源码里面有个参数指明是否需要通过header去重，默认是不通过这个的，所以默认情况下是不会添加header去计算hash的你也可以设置加入这个，如果你还有更进一步的定制你就可以去重写一个计算指纹的方法就行了

2 回复有任何疑惑可以回复我~

收起回答

Mr_青先森 #1

请问老师一下，scrapy发送请求的body具体包括什么呢？meta算吗？，callback算吗？cookies算吗？

回复有任何疑惑可以回复我~ 2021-08-24 15:11:55

bobby 回复 Mr_青先森 #2

body内容和http协议的内容是一样的，你这里问的应该是指指纹算法用到了哪些吧 https://blog.csdn.net/weixin_42078760/article/details/105312651 你可以看看这个

回复有任何疑惑可以回复我~ 2021-08-25 11:51:43

相似问题

关于随机更换的user-agent和浏览器返回的headers中的user-agent 的问题

老师，用这个库反而403了，是不是没用了

知乎检测浏览器版本太低是User-Agent 引起的吗

通过downloadmiddleware随机更换user-agent

老师你好，我爬取拉钩设置了user-agent和DOWNLOAD_DELAY = 15，仍然会重定向

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

request去重和随机user-agent、referer

正在回答回答被采纳积分+3

1回答

相似问题