老师好,
scrapy源码中对request去重是根据request中'method+url+body+header'进行sha1计算,如果是同一个url,但使用了随机User-agent导致header不一样,那么是不是就不能去重呢?或者即使同一User-agent,不断爬取时同一URL的referer也会不一样导致header不一样。
如果是分布式爬取知乎,在不同机器上使用不同账号登录,那么cookies不一样header也会不一样,还能不能对同一URL去重呢?
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程