在python生态中,请求库requests是一个知名的网络请求框架,可以清楚的看到爬虫请求的结构,使用requests有利于学习爬虫底层技术
Selenium库是Python知名的自动化测试框架,Selenium可以在浏览器的交互过程中,轻松的化解一些较难的交互动作
想要获取网页内容,熟悉网页也是必须掌握的基础内容。网页是多层元素堆叠的可视化平面,了解网页的结构和加载顺序,用助于提高爬虫的效率
网页是html标记语言,是一种规则的嵌套结构。解析规则的语法结构,例如html、xml,适合使用xpath语法规则,xpath语法概念易懂,易于使用且执行效率很高。
网页语法HTML是规则的,但是也经常会碰到一些不规则的语法需要解析,例如数据存在于css和js中。对于非规则的内容结构,正则表达式就非常适合于这类场景
Scrapy是Python生态中,非常知名的异步爬虫框架,结构化的组件相互配合,以及可视化部署的服务等,都是简化开发效率,提高爬虫的运行效率
上手一个基础的Scrapy项目爬虫,重点是了解Scrapy框架的整体结构和运行规律,了解请求和响应的流转顺序,以及各参数的处理位置
在Scrapy框架中,内置了很多的中间件组件,例如爬虫中间件和下载器中间件,都是管理爬虫和维护请求、响应的重要工具。
在Scrapy框架中,下载器中间件是下载器的前置组件,负责请求的处理,和响应的检测。熟练使用下载器中间件,可以精准维护和各个网站之间的会话
多个目标站点的电影网站项目,需要在一个项目内,使用多爬虫+多下载器中间件的组合,并将爬虫获取到的数据项,统一经过管道文件进行入库操作
Cookie在网站中使用非常频繁,学习Cookie,认清其本质,熟悉与Session的区别并能对其进行管理,是爬虫必备技能之一
基于IP的请求管理是非常常见的反爬,爬虫们要在IP层面进行代理伪装。优秀的爬虫工程师,需要对IP相关的知识以及如何通过python接入代理服务器等操作非常熟悉。
选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题