请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

深度优先,广度优先,CrawlSpider,非完全pagerank策略

老师,爬取什么样子的网站适合用深度优先策略进行爬取?,例如知乎。
爬取什么样子的网站适合用广度优先策略进行爬取?
爬取什么样子的网站适合用CrawlSpider进行爬取?
爬取什么样子的网站适合用非完全pagerank策略策略进行爬取?

我现在知道这么多方法,但是遇到一个新网站的时候,我还是不知道应该用哪种方法进行爬取,这个和你想要爬取的网站的url结构有关吗?,比如说为什么知乎选取了深度优先策略,相比于用广度优先策略爬取知乎,深度优先爬取知乎有什么优点吗?

正在回答 回答被采纳积分+3

1回答

bobby 2019-06-13 12:33:32

深度优先和广度优先抓取的策略而已,如果你的目的是为了抓取到想要的数据使用深度优先和广度优先都是一样的,scrapy默认是深度优先,深度优先以伯乐在线讲解:

    抓取到一个列表页的数据后是应该快速的去抓取每个页面的详情还是继续抓取下一个列表页?

深度优先可以尽快的将文章的详情页抓取下来,广度优先是先抓取到所有的文章url,然后再去抓取每个文章的详情页,至于最终的结果都是能抓取完全的,但是从中间结果来看深度优先可以尽量的确保快速的抓取到详情页,截图的需求得看你的业务需求是什么

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信