采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
咚咚呛老师 你好。 学完你的课程后,现在我想学习下爬虫,为自己加点竞争力。 所以我自己制定了一个学习路线。 网络请求的库:我看了 urllib, request 网页解析: bs4, 正则,xpath,pyjquery,css选择器 我想的是学习完这些,然后在去看框架课,学习多线程,多进程 分布式爬虫。 我想问的是我的学习路线正确吗? 还有一个网页解析的工具太多了,是全部学完吗?还是掌握其中的一些? 工作中爬虫常用到的解析工具是哪些那? 最后谢谢咚咚呛老师。
这个问题里面简单的总结过一下爬虫相关的内容,可以看看: https://coding.imooc.com/learn/questiondetail/109598.html问题的回答里面总结了爬虫的重要步骤,建议逐个击破。
你制定的学习路线挺好的,基本覆盖爬虫的所有内容,但建议加上前端的相关知识,在网页解析的时候熟知相关知识会更加得心应手。
关于网页解析工具,不用全部学完,结合bs4的话首选CSS选择器,CSS选择器使用起来最简单,其次是XPath,语法相对复杂一些,正则表达式不建议用来进行页面分析,可用于小范围数据提取。
最后是分布式爬虫,到分布式爬虫的阶段就是比较综合的阶段了,这个阶段更应该把分布式爬虫看成是分布式系统去学习而不是看成爬虫系统去学习。分布式爬虫的关键在于分布式的相关技术,以分布式系统的角度去学习会更好一些,知识点包括分布式调度、多线程、多进程、异步、通信、分布式存储等等。
登录后可查看更多问答,登录/注册
0到1完整项目实战过程,是难得的Django+小程序全栈项目体验。
1.4k 7
1.2k 23
2.2k 21
1.2k 14
1.2k 12