请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬虫方向的学习路线

七月老师 你好。 学完你的python基础后,我又学了web,但是现在我想学习下爬虫,为自己加点竞争力。
所以我自己制定了一个学习路线。
网络请求的库:我看了 urllib, request
网页解析: bs4, 正则,xpath,pyjquery,css选择器
我想的是学习完这些,然后在去看框架课,学习多线程,多进程 分布式爬虫。
我想问的是我的学习路线正确吗?
还有一个网页解析的工具太多了,是全部学完吗?还是掌握其中的一些?
工作中爬虫常用到的工具是哪些那?
最后谢谢七月老师。

正在回答

2回答

7七月 2019-03-28 20:23:15

爬虫以实用为主,不要去学学这个学学那个。我个人认为 bs4、正则、requests库就是最基本的工具,用好能解决很多问题。爬虫更多的难点在如何应对反爬和如何确保爬虫引擎自动话运行,不需要人工干预。至于xpath这些我觉得只是可选的。


最多在看看scarpy吧。

6 回复 有任何疑惑可以回复我~
7七月 2019-03-28 20:24:32

建议就是爬虫要实战,试着做一个不间断爬取自动运行,自动纠错的爬虫。然后再尝试做个网站把爬取的内容展示出来。这个过程中差什么补什么学什么。记住爬虫最难的是 自动纠错和不间断爬取。如果你写个爬虫1小时要去看看挂了没,然后手动重启撒的,那这爬虫太简单了,没技术含量。

8 回复 有任何疑惑可以回复我~

相似问题

登录后可查看更多问答,登录/注册

问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信