请稍等 ...

深度优先，广度优先，CrawlSpider,非完全pagerank策略

老师，爬取什么样子的网站适合用深度优先策略进行爬取？，例如知乎。
爬取什么样子的网站适合用广度优先策略进行爬取？
爬取什么样子的网站适合用CrawlSpider进行爬取？
爬取什么样子的网站适合用非完全pagerank策略策略进行爬取？

我现在知道这么多方法，但是遇到一个新网站的时候，我还是不知道应该用哪种方法进行爬取，这个和你想要爬取的网站的url结构有关吗？，比如说为什么知乎选取了深度优先策略，相比于用广度优先策略爬取知乎，深度优先爬取知乎有什么优点吗？

战战的坚果 2019-06-11 16:18:32

源自：8-5 通过downloadmiddleware随机更换user-agent - 2

1354

收起

提交取消

1回答

bobby 2019-06-13 12:33:32

深度优先和广度优先抓取的策略而已，如果你的目的是为了抓取到想要的数据使用深度优先和广度优先都是一样的，scrapy默认是深度优先，深度优先以伯乐在线讲解：

抓取到一个列表页的数据后是应该快速的去抓取每个页面的详情还是继续抓取下一个列表页？

深度优先可以尽快的将文章的详情页抓取下来，广度优先是先抓取到所有的文章url，然后再去抓取每个文章的详情页，至于最终的结果都是能抓取完全的，但是从中间结果来看深度优先可以尽量的确保快速的抓取到详情页，截图的需求得看你的业务需求是什么

0 回复有任何疑惑可以回复我~

相似问题

后面的章节哪个地方用到了这个算法呢？

老师，课程的代码，是广度优先还是深度优先？

回溯与图的深度优先遍历

广度优先遍历，可以用递归的方法吗？

老师，用scrapy-redis怎么实现深度优先啊

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号