请稍等 ...

爬虫学习路线？

咚咚呛老师你好。学完你的课程后，现在我想学习下爬虫，为自己加点竞争力。
所以我自己制定了一个学习路线。
网络请求的库：我看了 urllib， request
网页解析： bs4, 正则，xpath，pyjquery，css选择器
我想的是学习完这些，然后在去看框架课，学习多线程，多进程分布式爬虫。
我想问的是我的学习路线正确吗？
还有一个网页解析的工具太多了，是全部学完吗？还是掌握其中的一些？
工作中爬虫常用到的解析工具是哪些那？
最后谢谢咚咚呛老师。

qq_拱手河山讨欢_0 2019-03-28 20:04:59

源自：2-2 小程序开发的准备工作

1220

收起

提交取消

1回答

咚咚呛 2019-03-28 21:43:46

这个问题里面简单的总结过一下爬虫相关的内容，可以看看： https://coding.imooc.com/learn/questiondetail/109598.html
问题的回答里面总结了爬虫的重要步骤，建议逐个击破。

你制定的学习路线挺好的，基本覆盖爬虫的所有内容，但建议加上前端的相关知识，在网页解析的时候熟知相关知识会更加得心应手。

关于网页解析工具，不用全部学完，结合bs4的话首选CSS选择器，CSS选择器使用起来最简单，其次是XPath，语法相对复杂一些，正则表达式不建议用来进行页面分析，可用于小范围数据提取。

最后是分布式爬虫，到分布式爬虫的阶段就是比较综合的阶段了，这个阶段更应该把分布式爬虫看成是分布式系统去学习而不是看成爬虫系统去学习。分布式爬虫的关键在于分布式的相关技术，以分布式系统的角度去学习会更好一些，知识点包括分布式调度、多线程、多进程、异步、通信、分布式存储等等。

0 回复有任何疑惑可以回复我~

相似问题

爬虫方向的学习路线

爬虫

关于爬虫发展前景

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

爬虫学习

登录后可查看更多问答，登录/注册

Django+小程序技术打造微信小程序助手

参与学习 994 人
解答问题 507 个

0到1完整项目实战过程，是难得的Django+小程序全栈项目体验。

了解课程

本课精华内容

问答

【干货】资料推荐贴（持续更新）

1.9k 7

用的是python虚拟空间，静态文件已经收集，网页没有样式

1.6k 23

安装uwsgi的失败信息

3.5k 21

Postman请求数据为null

2.0k 14

请问老师，在真机调试时我输出后台返回的数据，为什么数据是Authorization required呀

1.7k 12

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号