Python 分布式爬虫与 JS 逆向进阶实战

20+ 案例 & 可接单级项目,整体提升爬虫实战能力

未完结:每周更新
|
难度:初级
|
时长:共 25 小时
¥448.00
距离活动结束
报名人数已满
  • 完整的爬虫学习路径
  • 5 种图像识别技术搞定验证码
  • 20+ 案例,接单级实战项目
  • 满足应对网站爬取的N种情况
  • 15+逆向破解技术对抗反爬
  • 掌握面试必备的爬虫技能技巧
试看本节课 11:15
试看本节课 03:07
试看本节课 05:56
1-1 爬虫能解决什么问题
1-2 为什么要学习 python 爬虫开发
1-3 课程内容介绍、学习目标

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
本课程从 0 到 1 构建完整的爬虫知识体系,精选 20 + 案例,可接单级项目,应用热门爬虫框架 Scrapy、Selenium、多种验证码识别技术,JS 逆向破解层层突破反爬,带你从容抓取主流网站数据,掌握爬虫工程师硬核技能。

本章介绍:

本章讲解爬虫能够解决哪些问题,数据爬取过程的几大难点,学习 Python 爬虫开发的必要性,介绍课程学习内容、学习目标,展示课程实战案例,老师会告诉大家哪些网站可以爬,哪些网站不能爬,以及爬虫工程师必知的注意事项。

第1章 走近 Python 爬虫开发
5 节|24分钟
展开
  • 视频:
    1-1 爬虫能解决什么问题
    试看
    11:15
  • 视频:
    1-2 为什么要学习 python 爬虫开发
    试看
    03:07
  • 视频:
    1-3 课程内容介绍、学习目标
    试看
    05:56
  • 图文:
    1-4 欢迎加入QQ学习交流群
  • 视频:
    1-5 【必看】行有行规,爬虫有虫规
    03:20

本章介绍:

本章带领大家搭建爬虫开发环境,包括 Python 安装配置、PyCharm 安装及使用技巧、pip 的使用,老师结合自身经验,总结有效的学习方法,带领大家一路坚持下去。

第2章 爬虫开发,你准备好了吗?
3 节|22分钟
收起
  • 视频:
    2-1 环境准备:搭建爬虫开发环境
    09:06
  • 视频:
    2-2 方法准备:好的学习方法,让编程事半功倍
    07:03
  • 视频:
    2-3 心态准备:克除浮躁,港大学霸带你一路坚持下去
    05:23

本章介绍:

本章讲解爬虫必备的 HTTP 基础知识,Python 模拟真人请求,设置 IP 代理,爬取网页数据。

第3章 如何及时抓取最新的网页数据?
4 节|28分钟
收起
  • 视频:
    3-1 爬虫请求的基础:HTTP 基础知识
    10:20
  • 视频:
    3-2 Requests 模块请求网页数据
    06:18
  • 视频:
    3-3 携带 Headers 请求头,模拟真人请求
    05:11
  • 视频:
    3-4 设置 Proxy 代理 IP,突破 IP 封锁
    05:56

本章介绍:

本章讲解提取网页数据的两种方法,即正则表达式解析数据、XPath 解析数据,语法基础与实战相结合,为后续学习做好铺垫。

第4章 如何提取网页数据?
10 节|115分钟
展开
  • 视频:
    4-1 如何提取网页关键数据?
    03:09
  • 视频:
    4-2 第一种方法:正则表达式解析数据
    06:47
  • 视频:
    4-3 【补充】正则表达式语法基础(一)
    17:46
  • 视频:
    4-4 【补充】正则表达式语法基础(二)
    15:03
  • 视频:
    4-5 【实战】 电影天堂:爬取电影详情页
    15:05
  • 视频:
    4-6 【实战】 电影天堂:全站分页数据爬取
    10:48
  • 视频:
    4-7 第二种方法:XPath 解析数据
    07:23
  • 视频:
    4-8 【补充】XPath 语法基础
    19:20
  • 视频:
    4-9 【实战】纵横中文网:爬取小说详情页
    10:40
  • 视频:
    4-10 【实战】纵横中文网:排行榜全部小说爬取
    08:46

本章介绍:

本章讲解主流的数据持久化存储方式,安装配置 MongoDB 数据库,爬取解析电影排行榜数据,并将数据写入 MongoDB 数据库。

第5章 如何存储抓取到的数据?
8 节|52分钟
展开
  • 视频:
    5-1 如何持久化存储数据?主流的数据存储方式?
    06:46
  • 视频:
    5-2 MongoDB 数据库概述
    03:53
  • 视频:
    5-3 MongoDB 安装配置(MacOS)
    07:46
  • 视频:
    5-4 MongoDB 安装配置(Windows)
    04:48
  • 视频:
    5-5 Python 连接 MongoDB 数据库
    10:10
  • 视频:
    5-6 【实战】豆瓣网:爬取电影排行榜数据
    09:36
  • 视频:
    5-7 【实战】豆瓣网:获取下滑加载的翻页数据
    04:43
  • 视频:
    5-8 【实战】豆瓣网:将数据存入 MongoDB 数据库
    04:10

本章介绍:

本章讲解 Scrapy 爬虫框架的应用,包括 Scrapy 架构、项目创建、数据流、伪装爬虫的手段、CrawlSpider 全站爬取等,对目标站点进行数据抓取实战,快速地爬取海量数据,让大家充分掌握 Scrapy 框架在爬虫项目中的应用。

第6章 Scrapy 框架快速爬取海量数据
13 节|79分钟
展开
  • 视频:
    6-1 如何高效爬取海量数据?
    03:25
  • 视频:
    6-2 第一个 Scrapy 爬虫项目
    07:16
  • 视频:
    6-3 Scrapy 框架架构梳理
    04:11
  • 视频:
    6-4 Scrapy + XPath 解析数据
    06:14
  • 视频:
    6-5 通过 Pipelines 管道实现数据保存
    05:43
  • 视频:
    6-6 Scrapy + MongoDB 数据持久化存储
    03:07
  • 视频:
    6-7 Middleware 中间件,处理引擎与下载器之间的请求及响应
    05:07
  • 视频:
    6-8 Scrapy 伪装爬虫手段一:设置动态 User-Agent
    03:25
  • 视频:
    6-9 Scrapy 伪装爬虫手段二:设置代理 IP
    02:43
  • 视频:
    6-10 【实战】豆瓣图书:Scrapy + 伪装爬虫爬取新书速递
    11:18
  • 视频:
    6-11 【实战】豆瓣图书:新书速递数据解析、存储
    10:50
  • 视频:
    6-12 CrawlSpider 爬虫,为全站爬取而生的 Scrapy 爬虫子类
    06:44
  • 视频:
    6-13 【实战】聚美优品:CrawlSpider 爬取并储存商品信息
    08:52

本章介绍:

本章讲解 Scrapy-Redis 分布式爬虫框架, 搭建 Scrapy-Redis 分布式爬虫环境,从零实现分布式爬虫,并对某大型商城进行分布式爬中实战。

第7章 Scrapy-Redis 分布式爬虫,让爬取效率更高
10 节|69分钟
展开
  • 视频:
    7-1 如何让爬取效率更高?
    02:27
  • 视频:
    7-2 什么是 Scrapy-Redis 分布式爬虫?
    06:26
  • 视频:
    7-3 Redis 数据库概述
    03:03
  • 视频:
    7-4 Redis 数据库安装配置(MacOS)
    04:00
  • 视频:
    7-5 Redis 数据库安装配置(Windows)
    04:20
  • 视频:
    7-6 Python 操作 Redis 数据库
    10:29
  • 视频:
    7-7 从零实现一个简单的分布式爬虫
    14:54
  • 视频:
    7-8 Redis 数据保存至 MongoDB 数据库
    05:20
  • 视频:
    7-9 【实战】京东商城:分布式爬虫(一)
    13:25
  • 视频:
    7-10 【实战】京东商城:分布式爬虫(二)
    04:27

本章介绍:

本章讲解数据爬取过程中模拟登录的两种方式,即 Cookie 实现登录、Selenium 框架自动化登录,补充 Selenium 基础知识,Scrapy + Selenium 实现登录并抓取数据。

第8章 Scrapy + Selenium 框架模拟登录
9 节|53分钟
展开
  • 视频:
    8-1 通过 Cookie 和 Session 实现用户登陆的原理
    05:57
  • 视频:
    8-2 模拟登录方法一:Requests 模块 + Cookie 实现登录
    06:07
  • 视频:
    8-3 Cookie + Session 实现登录并获取数据
    06:27
  • 视频:
    8-4 模拟登录方法二:Selenium 实现自动化登录
    02:47
  • 视频:
    8-5 【补充】Selenium 基础:安装配置
    05:51
  • 视频:
    8-6 【补充】Selenium 基础:元素定位方法
    07:40
  • 视频:
    8-7 【补充】Selenium 基础:元素交互
    05:52
  • 视频:
    8-8 Scrapy + Selenium 实现登录
    04:56
  • 视频:
    8-9 Scrapy + Selenium 登录后抓取数据
    06:24

本章介绍:

本章学习 OpenCV 图像识别技术,掌握 OpenCV 图像基础操作、修改像素和色彩、修改图像指定区域、图像运算、形态学图像处理、模版匹配等验证码识别的前置基础知识。

第9章 OpenCV 图像识别技术搞定验证码识别之前置基础
8 节|43分钟
展开
  • 视频:
    9-1 什么是 OpenCV 图像识别技术?
    02:36
  • 视频:
    9-2 OpenCV 图像基础操作
    05:26
  • 视频:
    9-3 修改图像像素与色彩
    06:15
  • 视频:
    9-4 修改图像 region of interest 指定区域
    02:35
  • 视频:
    9-5 图像数值运算、二值化处理
    09:27
  • 视频:
    9-6 图像平滑处理
    03:17
  • 视频:
    9-7 形态学图像处理
    07:48
  • 视频:
    9-8 滑块验证码的基础:模版匹配
    04:39

本章介绍:

本章讲解几种图片验证码的识别方式,以及滑块验证码识别,应用 OpenCV + OCR 识别图片验证码、OpenCV + Selenium 识别滑块验证码,登录不同的网站抓取数据。

第10章 OpenCV 图片验证码识别与滑块验证码识别
10 节|60分钟
展开
  • 视频:
    10-1 百度 OCR 文字识别云服务
    05:45
  • 视频:
    10-2 【实战】维普网:获取图片验证码
    05:03
  • 视频:
    10-3 【实战】维普网:OpenCV + OCR 识别验证码
    07:28
  • 视频:
    10-4 【实战】维普网:Selenium 登录并获取数据
    04:55
  • 视频:
    10-5 【实战】维普网:处理识别出错的问题
    03:21
  • 视频:
    10-6 滑块验证码识别逻辑梳理
    02:11
  • 视频:
    10-7 【实战】猎聘网:获取滑块验证码
    09:24
  • 视频:
    10-8 【实战】猎聘网:OpenCV 计算滑动距离
    08:45
  • 视频:
    10-9 【实战】猎聘网:Selenium 模拟滑动轨迹
    08:38
  • 视频:
    10-10 【实战】猎聘网:处理识别出错的问题
    03:32

本章介绍:

本章学习 EasyDL 机器学习识别验证码技术、云码平台一站式识别技术,讲解 EasyDL 机器学习基础、批量获取图片、训练模型等,实战抓取目标站点数据;应用云码平台识别滑块验证码,进行数据抓取实战。

第11章 EasyDL 机器学习识别验证码与云码平台一站式识别
7 节|35分钟
展开
  • 视频:
    11-1 EasyDL 机器学习基础
    04:03
  • 视频:
    11-2 【实战】京东商城:批量获取验证码图片
    07:56
  • 视频:
    11-3 【实战】京东商城:信息标注 & 训练模型
    04:23
  • 视频:
    11-4 【实战】京东商城:调用 EasyDL API 接口识别验证码
    05:20
  • 视频:
    11-5 云码平台使用基础
    01:29
  • 视频:
    11-6 【实战】豆瓣网:获取验证码图片
    07:10
  • 视频:
    11-7 【实战】豆瓣网:云码平台滑块验证码识别
    04:23

本章介绍:

本章讲解文字加密反爬技术,补充文字加解密基础知识,破解 Unicode 与 HTML 字符实体加密、CSS 偏移文字加密、字体库文字加密,并进行 CSS 偏移文字加密破解实战、字体库文字加密破解实战,将加密数据解析为可读可用数据。

第12章 爬虫与反爬的对抗之文字加密
9 节|57分钟
展开
  • 视频:
    12-1 常见的反爬手段介绍
    07:58
  • 视频:
    12-2 常见文字加解密方式有哪些?
    03:36
  • 视频:
    12-3 【补充】文字加解密基础:二进制与十六进制
    04:38
  • 视频:
    12-4 【补充】文字加解密基础:ASCII & UTF-8 & Unicode 编码
    04:57
  • 视频:
    12-5 【补充】文字加解密基础:Python 实现 Encode & Decode 编码转换
    03:16
  • 视频:
    12-6 破解 Unicode 与 HTML 字符实体加密
    04:20
  • 视频:
    12-7 破解 CSS 偏移文字加密
    07:57
  • 视频:
    12-8 【实战】ZiRoom:破解 CSS 偏移文字加密
    09:56
  • 视频:
    12-9 【实战】ZiRoom:获取租房信息数据
    09:49

本章介绍:

本章讲解 JS 逆向反爬技术,揭秘五种常见的 JS 加密手段,讲解 Js2py 破解 JS 加密、XHR 断点调试破解请求参数反爬、破解 JS Base64 加密、破解 Md5 哈希加密、破解 SHA 哈希加密,并应用不同的 JS 逆向破解技术,实战三大目标站点,爬取数据。

第13章 爬虫与反爬的对抗之 JS 逆向
12 节|76分钟
展开
  • 视频:
    13-1 常见五种 JS 加密手段揭秘
    07:20
  • 图文:
    13-2 【注意!注意!注意】爬虫有风险,采集需谨慎
  • 视频:
    13-3 Python Js2Py 库运行 JS 代码
    03:34
  • 视频:
    13-4 JS 逆向一:Js2py 破解基础 JS 加密
    09:40
  • 视频:
    13-5 JS 逆向二:Python 重构 JS 加密流程
    05:03
  • 视频:
    13-6 【实战】巨潮资讯:Js2py 破解 JS 加密获取股票信息
    09:09
  • 视频:
    13-7 【补充】Base64 编码原理
    06:14
  • 视频:
    13-8 JS 逆向三:重构 JS Base64 编码问题,破解 JS Base64 加密
    08:08
  • 视频:
    13-9 【实战】巨潮资讯:破解 JS Base64 加密获取巨潮资讯数据
    05:17
  • 视频:
    13-10 【补充】Hash 哈希算法原理
    04:51
  • 视频:
    13-11 JS 逆向四:破解 Md5 和 SHA 哈希加密
    05:47
  • 视频:
    13-12 【实战】千千音乐:JS 逆向破解音乐mp3参数哈希加密
    10:43

本章介绍:

本章开始学习 JS 逆向破解进阶知识,讲解七种 JS 逆向破解技术,包括破解 AES 加密、破解 RSA 加密、破解参数混合加密、破解 Response 加密、破解多请求使用不同密钥、密钥需要额外获取、以及基础 JS 混淆加密破解,应用不同的 JS 逆向破解技术,实战六大目标站点,抓取数据。

第14章 爬虫与反爬的对抗之 JS 逆向进阶
13 节|121分钟
展开
  • 视频:
    14-1 【补充】AES 对称加密算法原理
    09:31
  • 视频:
    14-2 JS 逆向进阶一:破解 AES 加密
    04:16
  • 视频:
    14-3 【实战】发现报告网:破解 AES 加密,逆向解析发现报告登录参数
    18:20
  • 视频:
    14-4 【补充】RSA 非对称加密算法原理
    07:28
  • 视频:
    14-5 JS 逆向进阶二:破解 RSA 加密
    05:13
  • 视频:
    14-6 【实战】36氪:破解 RSA 加密,逆向解析36氪登录参数
    07:56
  • 视频:
    14-7 JS 逆向进阶 三:解决多个请求使用相同加密算法的情况
    05:48
  • 视频:
    14-8 【实战】新榜:破解多请求相同算法,获取自媒体数据
    12:18
  • 视频:
    14-9 JS 逆向进阶四:破解参数混合加密
    05:39
  • 视频:
    14-10 【实战】网易云音乐:破解混合加密, 下载 mp3 歌曲
    17:13
  • 视频:
    14-11 JS 逆向进阶五:解决密钥需要额外获取的情况
    04:37
  • 视频:
    14-12 JS 逆向进阶六:基础 JS 混淆加密破解
    06:22
  • 视频:
    14-13 【实战】喜马拉雅:破解 JS 混淆加密,下载有声书 mp3
    15:25

本章介绍:

本章应用 Scrapy-Redis 框架、验证码识别技术、Selenium 框架,全流程爬取视频网站的海量数据,进一步提升爬虫开发的综合实战能力。

第15章 【综合实战】Scrapy-Redis+验证码识别+Selenium爬取海量数据
10 节|91分钟
展开
  • 视频:
    15-1 项目介绍 & 目标站点分析
    02:57
  • 视频:
    15-2 获取视频播放、点赞、收藏数据(上)
    13:25
  • 视频:
    15-3 获取视频播放、点赞、收藏数据(下)
    13:01
  • 视频:
    15-4 项目修改为 Scrapy-Redis 分布式爬虫
    04:49
  • 视频:
    15-5 MongoDB 数据库储存数据
    03:34
  • 视频:
    15-6 通过云码平台识别点选验证码
    14:13
  • 视频:
    15-7 Selenium 点击验证码实现登录
    06:40
  • 视频:
    15-8 JS 逆向实现视频自动点赞
    11:38
  • 视频:
    15-9 分析音视频下载接口
    16:55
  • 视频:
    15-10 Scrapy-Redis 分布式批量视频下载
    03:19

本章介绍:

爬取数据之后,如何处理数据呢?本章为大家拓展数据分析相关知识,对视频播放量、点赞、收藏等数据进行分析,认知数据分析,为大家推荐后续的进阶学习路线。

第16章 【拓展】视频网站数据分析
3 节|14分钟
展开
  • 视频:
    16-1 爬取数据之后如何处理数据?
    01:41
  • 视频:
    16-2 存储 MongoDB 中播放、点赞、收藏等数据至表格中
    07:14
  • 视频:
    16-3 数据分析进阶学习路线
    04:34

本章介绍:

本章讲解爬虫面试过程中的高频考点和经典面试题,分析问题本身,掌握考察点,并讲解参考答案。

第17章 【加餐】爬虫高频面试题
6 节|23分钟
展开
  • 视频:
    17-1 谈谈爬虫开发的基本流程
    05:48
  • 视频:
    17-2 为什么 requests 请求需要带上 header?
    02:13
  • 视频:
    17-3 robots.txt 协议文件有什么作用?
    01:45
  • 视频:
    17-4 简述 Scrapy 框架的基本结构
    04:02
  • 视频:
    17-5 常见的反爬措施及应对方法
    05:33
  • 视频:
    17-6 URL 链接的结构
    03:28
每周更新直至完结
适合人群
有 Python 基础,爬虫零基础学员
在校大学生 / 创业者 / 对爬虫开发感兴趣人员
急需提升爬虫开发能力的爬虫工程师
技术储备
Python 语法基础
环境参数
Python 3
Martin__Wang
全栈工程师
不为别的,只为提升面试通过率
尽管课程时间很长,
但没关系,我们有老师的陪伴,
还有同学之间互相鼓励,彼此帮助,
完成学习后,还能获得慕课网官方认证的证书。
数据加载中...
《Python 分布式爬虫与 JS 逆向进阶实战》的真实评价
综合评分:分,共 人参与
篇幅原因,只展示最近100条评价

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题

意见反馈 帮助中心 APP下载
官方微信