请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬虫学习路线?

咚咚呛老师 你好。 学完你的课程后,现在我想学习下爬虫,为自己加点竞争力。
所以我自己制定了一个学习路线。
网络请求的库:我看了 urllib, request
网页解析: bs4, 正则,xpath,pyjquery,css选择器
我想的是学习完这些,然后在去看框架课,学习多线程,多进程 分布式爬虫。
我想问的是我的学习路线正确吗?
还有一个网页解析的工具太多了,是全部学完吗?还是掌握其中的一些?
工作中爬虫常用到的解析工具是哪些那?
最后谢谢咚咚呛老师。

正在回答 回答被采纳积分+3

1回答

咚咚呛 2019-03-28 21:43:46

这个问题里面简单的总结过一下爬虫相关的内容,可以看看: https://coding.imooc.com/learn/questiondetail/109598.html
问题的回答里面总结了爬虫的重要步骤,建议逐个击破。

你制定的学习路线挺好的,基本覆盖爬虫的所有内容,但建议加上前端的相关知识,在网页解析的时候熟知相关知识会更加得心应手。

关于网页解析工具,不用全部学完,结合bs4的话首选CSS选择器,CSS选择器使用起来最简单,其次是XPath,语法相对复杂一些,正则表达式不建议用来进行页面分析,可用于小范围数据提取。

最后是分布式爬虫,到分布式爬虫的阶段就是比较综合的阶段了,这个阶段更应该把分布式爬虫看成是分布式系统去学习而不是看成爬虫系统去学习。分布式爬虫的关键在于分布式的相关技术,以分布式系统的角度去学习会更好一些,知识点包括分布式调度、多线程、多进程、异步、通信、分布式存储等等。


0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信