首页实战 Python 分布式爬虫与 JS 逆向进阶实战章节目录

Python 分布式爬虫与 JS 逆向进阶实战

20+ 案例 & 可接单级项目，整体提升爬虫实战能力

已完结难度初级时长 25小时学习人数 99 综合评分 10.00

报名人数已满

第1章走近 Python 爬虫开发试看 5 节 | 24分钟

本章讲解爬虫能够解决哪些问题，数据爬取过程的几大难点，学习 Python 爬虫开发的必要性，介绍课程学习内容、学习目标，展示课程实战案例，老师会告诉大家哪些网站可以爬，哪些网站不能爬，以及爬虫工程师必知的注意事项。...

收起列表
- 视频： 1-1 爬虫能解决什么问题 (11:15) 试看
- 视频： 1-2 为什么要学习 python 爬虫开发 (03:07) 试看
- 视频： 1-3 课程内容介绍、学习目标 (05:56) 试看
- 图文： 1-4 欢迎加入QQ学习交流群
- 视频： 1-5 【必看】行有行规，爬虫有虫规 (03:20)
第2章爬虫开发，你准备好了吗？ 3 节 | 22分钟

本章带领大家搭建爬虫开发环境，包括 Python 安装配置、PyCharm 安装及使用技巧、pip 的使用，老师结合自身经验，总结有效的学习方法，带领大家一路坚持下去。

收起列表
- 视频： 2-1 环境准备：搭建爬虫开发环境 (09:06)
- 视频： 2-2 方法准备：好的学习方法，让编程事半功倍 (07:03)
- 视频： 2-3 心态准备：克除浮躁，港大学霸带你一路坚持下去 (05:23)
第3章如何及时抓取最新的网页数据？ 4 节 | 28分钟

本章讲解爬虫必备的 HTTP 基础知识，Python 模拟真人请求，设置 IP 代理，爬取网页数据。

收起列表
- 视频： 3-1 爬虫请求的基础：HTTP 基础知识 (10:20)
- 视频： 3-2 Requests 模块请求网页数据 (06:18)
- 视频： 3-3 携带 Headers 请求头，模拟真人请求 (05:11)
- 视频： 3-4 设置 Proxy 代理 IP，突破 IP 封锁 (05:56)
第4章如何提取网页数据？ 10 节 | 115分钟

本章讲解提取网页数据的两种方法，即正则表达式解析数据、XPath 解析数据，语法基础与实战相结合，为后续学习做好铺垫。

收起列表
- 视频： 4-1 如何提取网页关键数据？ (03:09)
- 视频： 4-2 第一种方法：正则表达式解析数据 (06:47)
- 视频： 4-3 【补充】正则表达式语法基础（一） (17:46)
- 视频： 4-4 【补充】正则表达式语法基础（二） (15:03)
- 视频： 4-5 【实战】电影天堂：爬取电影详情页 (15:05)
- 视频： 4-6 【实战】电影天堂：全站分页数据爬取 (10:48)
- 视频： 4-7 第二种方法：XPath 解析数据 (07:23)
- 视频： 4-8 【补充】XPath 语法基础 (19:20)
- 视频： 4-9 【实战】纵横中文网：爬取小说详情页 (10:40)
- 视频： 4-10 【实战】纵横中文网：排行榜全部小说爬取 (08:46)
第5章如何存储抓取到的数据？ 8 节 | 52分钟

本章讲解主流的数据持久化存储方式，安装配置 MongoDB 数据库，爬取解析电影排行榜数据，并将数据写入 MongoDB 数据库。

收起列表
- 视频： 5-1 如何持久化存储数据？主流的数据存储方式？ (06:46)
- 视频： 5-2 MongoDB 数据库概述 (03:53)
- 视频： 5-3 MongoDB 安装配置（MacOS） (07:46)
- 视频： 5-4 MongoDB 安装配置（Windows） (04:48)
- 视频： 5-5 Python 连接 MongoDB 数据库 (10:10)
- 视频： 5-6 【实战】豆瓣网：爬取电影排行榜数据 (09:36)
- 视频： 5-7 【实战】豆瓣网：获取下滑加载的翻页数据 (04:43)
- 视频： 5-8 【实战】豆瓣网：将数据存入 MongoDB 数据库 (04:10)
第6章 Scrapy 框架快速爬取海量数据 13 节 | 79分钟

本章讲解 Scrapy 爬虫框架的应用，包括 Scrapy 架构、项目创建、数据流、伪装爬虫的手段、CrawlSpider 全站爬取等，对目标站点进行数据抓取实战，快速地爬取海量数据，让大家充分掌握 Scrapy 框架在爬虫项目中的应用。

收起列表
- 视频： 6-1 如何高效爬取海量数据？ (03:25)
- 视频： 6-2 第一个 Scrapy 爬虫项目 (07:16)
- 视频： 6-3 Scrapy 框架架构梳理 (04:11)
- 视频： 6-4 Scrapy + XPath 解析数据 (06:14)
- 视频： 6-5 通过 Pipelines 管道实现数据保存 (05:43)
- 视频： 6-6 Scrapy + MongoDB 数据持久化存储 (03:07)
- 视频： 6-7 Middleware 中间件，处理引擎与下载器之间的请求及响应 (05:07)
- 视频： 6-8 Scrapy 伪装爬虫手段一：设置动态 User-Agent (03:25)
- 视频： 6-9 Scrapy 伪装爬虫手段二：设置代理 IP (02:43)
- 视频： 6-10 【实战】豆瓣图书：Scrapy + 伪装爬虫爬取新书速递 (11:18)
- 视频： 6-11 【实战】豆瓣图书：新书速递数据解析、存储 (10:50)
- 视频： 6-12 CrawlSpider 爬虫，为全站爬取而生的 Scrapy 爬虫子类 (06:44)
- 视频： 6-13 【实战】聚美优品：CrawlSpider 爬取并储存商品信息 (08:52)
第7章 Scrapy-Redis 分布式爬虫，让爬取效率更高 10 节 | 69分钟

本章讲解 Scrapy-Redis 分布式爬虫框架，搭建 Scrapy-Redis 分布式爬虫环境，从零实现分布式爬虫，并对某大型商城进行分布式爬中实战。

收起列表
- 视频： 7-1 如何让爬取效率更高？ (02:27)
- 视频： 7-2 什么是 Scrapy-Redis 分布式爬虫？ (06:26)
- 视频： 7-3 Redis 数据库概述 (03:03)
- 视频： 7-4 Redis 数据库安装配置（MacOS） (04:00)
- 视频： 7-5 Redis 数据库安装配置（Windows） (04:20)
- 视频： 7-6 Python 操作 Redis 数据库 (10:29)
- 视频： 7-7 从零实现一个简单的分布式爬虫 (14:54)
- 视频： 7-8 Redis 数据保存至 MongoDB 数据库 (05:20)
- 视频： 7-9 【实战】京东商城：分布式爬虫（一） (13:25)
- 视频： 7-10 【实战】京东商城：分布式爬虫（二） (04:27)
第8章 Scrapy + Selenium 框架模拟登录 9 节 | 53分钟

本章讲解数据爬取过程中模拟登录的两种方式，即 Cookie 实现登录、Selenium 框架自动化登录，补充 Selenium 基础知识，Scrapy + Selenium 实现登录并抓取数据。

收起列表
- 视频： 8-1 通过 Cookie 和 Session 实现用户登陆的原理 (05:57)
- 视频： 8-2 模拟登录方法一：Requests 模块 + Cookie 实现登录 (06:07)
- 视频： 8-3 Cookie + Session 实现登录并获取数据 (06:27)
- 视频： 8-4 模拟登录方法二：Selenium 实现自动化登录 (02:47)
- 视频： 8-5 【补充】Selenium 基础：安装配置 (05:51)
- 视频： 8-6 【补充】Selenium 基础：元素定位方法 (07:40)
- 视频： 8-7 【补充】Selenium 基础：元素交互 (05:52)
- 视频： 8-8 Scrapy + Selenium 实现登录 (04:56)
- 视频： 8-9 Scrapy + Selenium 登录后抓取数据 (06:24)
第9章 OpenCV 图像识别技术搞定验证码识别之前置基础 8 节 | 43分钟

本章学习 OpenCV 图像识别技术，掌握 OpenCV 图像基础操作、修改像素和色彩、修改图像指定区域、图像运算、形态学图像处理、模版匹配等验证码识别的前置基础知识。

收起列表
- 视频： 9-1 什么是 OpenCV 图像识别技术？ (02:36)
- 视频： 9-2 OpenCV 图像基础操作 (05:26)
- 视频： 9-3 修改图像像素与色彩 (06:15)
- 视频： 9-4 修改图像 region of interest 指定区域 (02:35)
- 视频： 9-5 图像数值运算、二值化处理 (09:27)
- 视频： 9-6 图像平滑处理 (03:17)
- 视频： 9-7 形态学图像处理 (07:48)
- 视频： 9-8 滑块验证码的基础：模版匹配 (04:39)
第10章 OpenCV 图片验证码识别与滑块验证码识别 10 节 | 60分钟

本章讲解几种图片验证码的识别方式，以及滑块验证码识别，应用 OpenCV + OCR 识别图片验证码、OpenCV + Selenium 识别滑块验证码，登录不同的网站抓取数据。

收起列表
- 视频： 10-1 百度 OCR 文字识别云服务 (05:45)
- 视频： 10-2 【实战】维普网：获取图片验证码 (05:03)
- 视频： 10-3 【实战】维普网：OpenCV + OCR 识别验证码 (07:28)
- 视频： 10-4 【实战】维普网：Selenium 登录并获取数据 (04:55)
- 视频： 10-5 【实战】维普网：处理识别出错的问题 (03:21)
- 视频： 10-6 滑块验证码识别逻辑梳理 (02:11)
- 视频： 10-7 【实战】猎聘网：获取滑块验证码 (09:24)
- 视频： 10-8 【实战】猎聘网：OpenCV 计算滑动距离 (08:45)
- 视频： 10-9 【实战】猎聘网：Selenium 模拟滑动轨迹 (08:38)
- 视频： 10-10 【实战】猎聘网：处理识别出错的问题 (03:32)
第11章 EasyDL 机器学习识别验证码与云码平台一站式识别 7 节 | 35分钟

本章学习 EasyDL 机器学习识别验证码技术、云码平台一站式识别技术，讲解 EasyDL 机器学习基础、批量获取图片、训练模型等，实战抓取目标站点数据；应用云码平台识别滑块验证码，进行数据抓取实战。

收起列表
- 视频： 11-1 EasyDL 机器学习基础 (04:03)
- 视频： 11-2 【实战】京东商城：批量获取验证码图片 (07:56)
- 视频： 11-3 【实战】京东商城：信息标注 & 训练模型 (04:23)
- 视频： 11-4 【实战】京东商城：调用 EasyDL API 接口识别验证码 (05:20)
- 视频： 11-5 云码平台使用基础 (01:29)
- 视频： 11-6 【实战】豆瓣网：获取验证码图片 (07:10)
- 视频： 11-7 【实战】豆瓣网：云码平台滑块验证码识别 (04:23)
第12章爬虫与反爬的对抗之文字加密 9 节 | 57分钟

本章讲解文字加密反爬技术，补充文字加解密基础知识，破解 Unicode 与 HTML 字符实体加密、CSS 偏移文字加密、字体库文字加密，并进行 CSS 偏移文字加密破解实战、字体库文字加密破解实战，将加密数据解析为可读可用数据。

收起列表
- 视频： 12-1 常见的反爬手段介绍 (07:58)
- 视频： 12-2 常见文字加解密方式有哪些？ (03:36)
- 视频： 12-3 【补充】文字加解密基础：二进制与十六进制 (04:38)
- 视频： 12-4 【补充】文字加解密基础：ASCII & UTF-8 & Unicode 编码 (04:57)
- 视频： 12-5 【补充】文字加解密基础：Python 实现 Encode & Decode 编码转换 (03:16)
- 视频： 12-6 破解 Unicode 与 HTML 字符实体加密 (04:20)
- 视频： 12-7 破解 CSS 偏移文字加密 (07:57)
- 视频： 12-8 【实战】ZiRoom：破解 CSS 偏移文字加密 (09:56)
- 视频： 12-9 【实战】ZiRoom：获取租房信息数据 (09:49)
第13章爬虫与反爬的对抗之 JS 逆向 12 节 | 76分钟

本章讲解 JS 逆向反爬技术，揭秘五种常见的 JS 加密手段，讲解 Js2py 破解 JS 加密、XHR 断点调试破解请求参数反爬、破解 JS Base64 加密、破解 Md5 哈希加密、破解 SHA 哈希加密，并应用不同的 JS 逆向破解技术，实战三大目标站点，爬取数据。...

收起列表
- 视频： 13-1 常见五种 JS 加密手段揭秘 (07:20)
- 图文： 13-2 【注意！注意！注意】爬虫有风险，采集需谨慎
- 视频： 13-3 Python Js2Py 库运行 JS 代码 (03:34)
- 视频： 13-4 JS 逆向一：Js2py 破解基础 JS 加密 (09:40)
- 视频： 13-5 JS 逆向二：Python 重构 JS 加密流程 (05:03)
- 视频： 13-6 【实战】巨潮资讯：Js2py 破解 JS 加密获取股票信息 (09:09)
- 视频： 13-7 【补充】Base64 编码原理 (06:14)
- 视频： 13-8 JS 逆向三：重构 JS Base64 编码问题，破解 JS Base64 加密 (08:08)
- 视频： 13-9 【实战】巨潮资讯：破解 JS Base64 加密获取巨潮资讯数据 (05:17)
- 视频： 13-10 【补充】Hash 哈希算法原理 (04:51)
- 视频： 13-11 JS 逆向四：破解 Md5 和 SHA 哈希加密 (05:47)
- 视频： 13-12 【实战】千千音乐：JS 逆向破解音乐mp3参数哈希加密 (10:43)
第14章爬虫与反爬的对抗之 JS 逆向进阶 13 节 | 121分钟

本章开始学习 JS 逆向破解进阶知识，讲解七种 JS 逆向破解技术，包括破解 AES 加密、破解 RSA 加密、破解参数混合加密、破解 Response 加密、破解多请求使用不同密钥、密钥需要额外获取、以及基础 JS 混淆加密破解，应用不同的 JS 逆向破解技术，实战六大目标站点，抓取数据。...

收起列表
- 视频： 14-1 【补充】AES 对称加密算法原理 (09:31)
- 视频： 14-2 JS 逆向进阶一：破解 AES 加密 (04:16)
- 视频： 14-3 【实战】发现报告网：破解 AES 加密，逆向解析发现报告登录参数 (18:20)
- 视频： 14-4 【补充】RSA 非对称加密算法原理 (07:28)
- 视频： 14-5 JS 逆向进阶二：破解 RSA 加密 (05:13)
- 视频： 14-6 【实战】36氪：破解 RSA 加密，逆向解析36氪登录参数 (07:56)
- 视频： 14-7 JS 逆向进阶三：解决多个请求使用相同加密算法的情况 (05:48)
- 视频： 14-8 【实战】新榜：破解多请求相同算法，获取自媒体数据 (12:18)
- 视频： 14-9 JS 逆向进阶四：破解参数混合加密 (05:39)
- 视频： 14-10 【实战】网易云音乐：破解混合加密，下载 mp3 歌曲 (17:13)
- 视频： 14-11 JS 逆向进阶五：解决密钥需要额外获取的情况 (04:37)
- 视频： 14-12 JS 逆向进阶六：基础 JS 混淆加密破解 (06:22)
- 视频： 14-13 【实战】喜马拉雅：破解 JS 混淆加密，下载有声书 mp3 (15:25)
第15章【综合实战】Scrapy-Redis+验证码识别+Selenium爬取海量数据 10 节 | 91分钟

本章应用 Scrapy-Redis 框架、验证码识别技术、Selenium 框架，全流程爬取视频网站的海量数据，进一步提升爬虫开发的综合实战能力。

收起列表
- 视频： 15-1 项目介绍 & 目标站点分析 (02:57)
- 视频： 15-2 获取视频播放、点赞、收藏数据（上） (13:25)
- 视频： 15-3 获取视频播放、点赞、收藏数据（下） (13:01)
- 视频： 15-4 项目修改为 Scrapy-Redis 分布式爬虫 (04:49)
- 视频： 15-5 MongoDB 数据库储存数据 (03:34)
- 视频： 15-6 通过云码平台识别点选验证码 (14:13)
- 视频： 15-7 Selenium 点击验证码实现登录 (06:40)
- 视频： 15-8 JS 逆向实现视频自动点赞 (11:38)
- 视频： 15-9 分析音视频下载接口 (16:55)
- 视频： 15-10 Scrapy-Redis 分布式批量视频下载 (03:19)
第16章【拓展】视频网站数据分析 3 节 | 14分钟

爬取数据之后，如何处理数据呢？本章为大家拓展数据分析相关知识，对视频播放量、点赞、收藏等数据进行分析，认知数据分析，为大家推荐后续的进阶学习路线。

收起列表
- 视频： 16-1 爬取数据之后如何处理数据？ (01:41)
- 视频： 16-2 存储 MongoDB 中播放、点赞、收藏等数据至表格中 (07:14)
- 视频： 16-3 数据分析进阶学习路线 (04:34)
第17章【加餐】爬虫高频面试题 6 节 | 23分钟

本章讲解爬虫面试过程中的高频考点和经典面试题，分析问题本身，掌握考察点，并讲解参考答案。

收起列表
- 视频： 17-1 谈谈爬虫开发的基本流程 (05:48)
- 视频： 17-2 为什么 requests 请求需要带上 header？ (02:13)
- 视频： 17-3 robots.txt 协议文件有什么作用？ (01:45)
- 视频： 17-4 简述 Scrapy 框架的基本结构 (04:02)
- 视频： 17-5 常见的反爬措施及应对方法 (05:33)
- 视频： 17-6 URL 链接的结构 (03:28)

本课程已完结

讲师

Martin__Wang 全栈工程师

毕业于香港大学计算机专业，七年互联网开发经验，参与多个大型项目开发，长期致力于 Python、Java、前端、以及人工智能等领域教学研究工作。

课程预览

检测到您还没有关注慕课网服务号，无法接收课程更新通知。请扫描二维码即可绑定

重新观看

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

Python 分布式爬虫与 JS 逆向进阶实战

20+ 案例 & 可接单级项目，整体提升爬虫实战能力

Python 分布式爬虫与 JS 逆向进阶实战

第1章 走近 Python 爬虫开发 试看 5 节 | 24分钟

第2章 爬虫开发，你准备好了吗？ 3 节 | 22分钟

第3章 如何及时抓取最新的网页数据？ 4 节 | 28分钟

第4章 如何提取网页数据？ 10 节 | 115分钟

第5章 如何存储抓取到的数据？ 8 节 | 52分钟

第6章 Scrapy 框架快速爬取海量数据 13 节 | 79分钟

第7章 Scrapy-Redis 分布式爬虫，让爬取效率更高 10 节 | 69分钟

第8章 Scrapy + Selenium 框架模拟登录 9 节 | 53分钟

第9章 OpenCV 图像识别技术搞定验证码识别之前置基础 8 节 | 43分钟

第10章 OpenCV 图片验证码识别与滑块验证码识别 10 节 | 60分钟

第11章 EasyDL 机器学习识别验证码与云码平台一站式识别 7 节 | 35分钟

第12章 爬虫与反爬的对抗之文字加密 9 节 | 57分钟

第13章 爬虫与反爬的对抗之 JS 逆向 12 节 | 76分钟

第14章 爬虫与反爬的对抗之 JS 逆向进阶 13 节 | 121分钟

第15章 【综合实战】Scrapy-Redis+验证码识别+Selenium爬取海量数据 10 节 | 91分钟

第16章 【拓展】视频网站数据分析 3 节 | 14分钟

第17章 【加餐】爬虫高频面试题 6 节 | 23分钟

讲师

课程预览

邀请好友学习

微信邀请

链接邀请

海报邀请

￥448.00

学习咨询

第1章走近 Python 爬虫开发试看 5 节 | 24分钟

第2章爬虫开发，你准备好了吗？ 3 节 | 22分钟

第3章如何及时抓取最新的网页数据？ 4 节 | 28分钟

第4章如何提取网页数据？ 10 节 | 115分钟

第5章如何存储抓取到的数据？ 8 节 | 52分钟

第12章爬虫与反爬的对抗之文字加密 9 节 | 57分钟

第13章爬虫与反爬的对抗之 JS 逆向 12 节 | 76分钟

第14章爬虫与反爬的对抗之 JS 逆向进阶 13 节 | 121分钟

第15章【综合实战】Scrapy-Redis+验证码识别+Selenium爬取海量数据 10 节 | 91分钟

第16章【拓展】视频网站数据分析 3 节 | 14分钟

第17章【加餐】爬虫高频面试题 6 节 | 23分钟