老师,爬取什么样子的网站适合用深度优先策略进行爬取?,例如知乎。
爬取什么样子的网站适合用广度优先策略进行爬取?
爬取什么样子的网站适合用CrawlSpider进行爬取?
爬取什么样子的网站适合用非完全pagerank策略策略进行爬取?
我现在知道这么多方法,但是遇到一个新网站的时候,我还是不知道应该用哪种方法进行爬取,这个和你想要爬取的网站的url结构有关吗?,比如说为什么知乎选取了深度优先策略,相比于用广度优先策略爬取知乎,深度优先爬取知乎有什么优点吗?
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程