本章讲解爬虫能够解决哪些问题,数据爬取过程的几大难点,学习 Python 爬虫开发的必要性,介绍课程学习内容、学习目标,展示课程实战案例,老师会告诉大家哪些网站可以爬,哪些网站不能爬,以及爬虫工程师必知的注意事项。
本章带领大家搭建爬虫开发环境,包括 Python 安装配置、PyCharm 安装及使用技巧、pip 的使用,老师结合自身经验,总结有效的学习方法,带领大家一路坚持下去。
本章讲解 Scrapy 爬虫框架的应用,包括 Scrapy 架构、项目创建、数据流、伪装爬虫的手段、CrawlSpider 全站爬取等,对目标站点进行数据抓取实战,快速地爬取海量数据,让大家充分掌握 Scrapy 框架在爬虫项目中的应用。
本章讲解 Scrapy-Redis 分布式爬虫框架, 搭建 Scrapy-Redis 分布式爬虫环境,从零实现分布式爬虫,并对某大型商城进行分布式爬中实战。
本章讲解数据爬取过程中模拟登录的两种方式,即 Cookie 实现登录、Selenium 框架自动化登录,补充 Selenium 基础知识,Scrapy + Selenium 实现登录并抓取数据。
本章学习 OpenCV 图像识别技术,掌握 OpenCV 图像基础操作、修改像素和色彩、修改图像指定区域、图像运算、形态学图像处理、模版匹配等验证码识别的前置基础知识。
本章讲解几种图片验证码的识别方式,以及滑块验证码识别,应用 OpenCV + OCR 识别图片验证码、OpenCV + Selenium 识别滑块验证码,登录不同的网站抓取数据。
本章学习 EasyDL 机器学习识别验证码技术、云码平台一站式识别技术,讲解 EasyDL 机器学习基础、批量获取图片、训练模型等,实战抓取目标站点数据;应用云码平台识别滑块验证码,进行数据抓取实战。
本章讲解文字加密反爬技术,补充文字加解密基础知识,破解 Unicode 与 HTML 字符实体加密、CSS 偏移文字加密、字体库文字加密,并进行 CSS 偏移文字加密破解实战、字体库文字加密破解实战,将加密数据解析为可读可用数据。
本章讲解 JS 逆向反爬技术,揭秘五种常见的 JS 加密手段,讲解 Js2py 破解 JS 加密、XHR 断点调试破解请求参数反爬、破解 JS Base64 加密、破解 Md5 哈希加密、破解 SHA 哈希加密,并应用不同的 JS 逆向破解技术,实战三大目标站点,爬取数据。
本章开始学习 JS 逆向破解进阶知识,讲解七种 JS 逆向破解技术,包括破解 AES 加密、破解 RSA 加密、破解参数混合加密、破解 Response 加密、破解多请求使用不同密钥、密钥需要额外获取、以及基础 JS 混淆加密破解,应用不同的 JS 逆向破解技术,实战六大目标站点,抓取数据。
本章应用 Scrapy-Redis 框架、验证码识别技术、Selenium 框架,全流程爬取视频网站的海量数据,进一步提升爬虫开发的综合实战能力。
爬取数据之后,如何处理数据呢?本章为大家拓展数据分析相关知识,对视频播放量、点赞、收藏等数据进行分析,认知数据分析,为大家推荐后续的进阶学习路线。
选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题