1、对这个爬取follow=true,不太清楚里面的规则。以拉勾网一个具体招聘为例,每一个招聘页面,正文为一个具体工作,右边会有几个推荐工作链接。这样抓取的话,会不会出现爬虫永远都抓取不完?
因为右侧的推荐永远都是有的。
follow=true的具体抓取策略是什么?
会把整个页面的url全部提取,然后根据rule进行过滤,还是特定只抓取页面特定的一部分。
2、还有就是这个url抓取,爬虫会自动去重么,还是自己后期再进行去重处理。
我这在抓取猎聘网职位,但是感觉跑不完了····
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程