收藏

大数据Spark SQL慕课网日志分析

为你找到快速转型大数据的突破口

以慕课网日志分析为例 进入大数据Spark SQL的世界

已完结 难度 中级 时长 19小时30分钟 学习人数 1644 综合评分 9.94
  • 第1章 初探大数据 试看 25 节 | 228分钟

    本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识

    收起列表

    • 视频: 1-1 导学 (12:29) 试看
    • 视频: 1-2 -如何学好大数据 (02:55)
    • 视频: 1-3 -开发环境介绍 (06:11)
    • 视频: 1-4 -OOTB镜像文件使用介绍 (10:18)
    • 视频: 1-5 -大数据概述 (09:28)
    • 视频: 1-6 -Hadoop概述 (15:26)
    • 视频: 1-7 -HDFS概述及设计目标 (08:20)
    • 视频: 1-8 -HDFS架构 (10:58)
    • 视频: 1-9 -HDFS副本机制 (06:57)
    • 视频: 1-10 -Hadoop下载及JDK安装 (11:47)
    • 视频: 1-11 -机器参数设置 (05:59)
    • 视频: 1-12 -HDFS核心配置文件内容配置 (07:29)
    • 视频: 1-13 -HDFS格式化及启停 (07:53)
    • 视频: 1-14 -HDFS shell常用操作 (08:54)
    • 视频: 1-15 -HDFS优缺点 (02:23)
    • 视频: 1-16 -MapReduce概述 (05:37)
    • 视频: 1-17 -MapReduce编程模型及WordCount案例 (08:08)
    • 视频: 1-18 -YARN产生背景 (05:29)
    • 视频: 1-19 -YARN架构和执行流程 (15:29)
    • 视频: 1-20 -YARN环境搭建及提交作业到YARN上运行 (14:02)
    • 视频: 1-21 -Hive产生背景及Hive是什么 (11:00)
    • 视频: 1-22 -为什么要使用Hive及Hive发展历程 (08:29)
    • 视频: 1-23 -Hive体系架构及部署架构 (06:39)
    • 视频: 1-24 -Hive环境搭建 (11:53)
    • 视频: 1-25 -Hive基本使用 (13:16)
  • 第2章 Spark及其生态圈概述 7 节 | 53分钟

    Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ...

    收起列表

    • 视频: 2-1 -课程目录 (02:13)
    • 视频: 2-2 -Spark概述及特点 (10:03) 试看
    • 视频: 2-3 -Spark产生背景 (10:11)
    • 视频: 2-4 -Spark发展历史 (02:13)
    • 视频: 2-5 -Spark Survey (08:30)
    • 视频: 2-6 -Spark对比Hadoop (15:47)
    • 视频: 2-7 -Spark和Hadoop的协作性 (03:36)
  • 第3章 实战环境搭建 6 节 | 73分钟

    工欲善其事必先利其器,本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行

    收起列表

    • 视频: 3-1 -课程目录 (01:58)
    • 视频: 3-2 -Spark源码编译 (23:46)
    • 视频: 3-3 补录:Spark源码编译中的坑 (16:23)
    • 视频: 3-4 Spark Local模式环境搭建 (06:53)
    • 视频: 3-5 Spark Standalone模式环境搭建 (16:29)
    • 视频: 3-6 Spark简单使用 (06:32)
  • 第4章 Spark SQL概述 6 节 | 44分钟

    Spark SQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构,这几个角度进行展开讲解...

    收起列表

    • 视频: 4-1 课程目录 (01:41)
    • 视频: 4-2 -Spark SQL前世今生 (16:41)
    • 视频: 4-3 -SQL on Hadoop常用框架介绍 (06:33)
    • 视频: 4-4 -Spark SQL概述 (12:41)
    • 视频: 4-5 -Spark SQL愿景 (01:58)
    • 视频: 4-6 -Spark SQL架构 (03:32)
  • 第5章 从Hive平滑过渡到Spark SQL 7 节 | 84分钟

    Hive是SQL-on-Hadoop的解决方案和默认的标准,如何将数据处理从Hive过渡到Spark SQL上来是我们必须要掌握的。本章我们将讲解在Spark中操作Hive中的数据几种方式

    收起列表

    • 视频: 5-1 -课程目录 (02:02)
    • 视频: 5-2 -A SQLContext的使用 (27:05)
    • 视频: 5-3 -B HiveContext的使用 (07:49)
    • 视频: 5-4 -C SparkSession的使用 (06:02) 试看
    • 视频: 5-5 spark-shell&spark-sql的使用 (20:51)
    • 视频: 5-6 -thriftserver&beeline的使用 (12:59)
    • 视频: 5-7 -jdbc方式编程访问 (06:33)
  • 第6章 DataFrame&Dataset 9 节 | 87分钟

    DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的产生背景、DataFrame对比RDD、DataFrame API操作等方面对DataFrame做详细的编程开发讲解

    收起列表

    • 视频: 6-1 -课程目录 (01:24)
    • 视频: 6-2 -DataFrame产生背景 (04:50)
    • 视频: 6-3 -DataFrame概述 (08:01)
    • 视频: 6-4 -DataFrame和RDD的对比 (03:27)
    • 视频: 6-5 -DataFrame基本API操作 (15:15)
    • 视频: 6-6 -DataFrame与RDD互操作方式一 (12:15)
    • 视频: 6-7 -DataFrame与RDD互操作方式二 (09:33)
    • 视频: 6-8 -DataFrame API操作案例实战 (21:11)
    • 视频: 6-9 -Dataset概述及使用 (10:20)
  • 第7章 External Data Source 8 节 | 49分钟

    Spark SQL中的核心功能,可以使用外部数据源非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用外部数据源来操作Hive、Parquet、MySQL中的数据以及综合使用

    收起列表

    • 视频: 7-1 -课程目录 (00:56)
    • 视频: 7-2 -产生背景 (05:48)
    • 视频: 7-3 -概述 (03:08)
    • 视频: 7-4 -目标 (04:48)
    • 视频: 7-5 -操作Parquet文件数据 (12:41)
    • 视频: 7-6 -操作Hive表数据 (06:52)
    • 视频: 7-7 -操作MySQL表数据 (08:49)
    • 视频: 7-8 -Hive和MySQL综合使用 (05:46)
  • 第8章 SparkSQL愿景 10 节 | 61分钟

    本章将讲解Spark的愿景:写更少的代码、读更少的数据、让优化器自动优化程序

    收起列表

    • 视频: 8-1 -A SparkSQL愿景之一写更少的代码(代码量和可读性) (03:33)
    • 视频: 8-2 -B SparkSQL愿景之一写更少的代码(统一访问操作接口) (07:45)
    • 视频: 8-3 -C SparkSQL愿景之一写更少的代码(强有力的API支持) (03:51)
    • 视频: 8-4 -D SparkSQL愿景之一些更少的代码(Schema推导) (10:30)
    • 视频: 8-5 -E SparkSQL愿景之一写更少的代码(Schema Merge) (04:58)
    • 视频: 8-6 -F SparkSQL愿景之一写更少的代码(Partition Discovery) (05:14)
    • 视频: 8-7 -G SparkSQL愿景之一写更少的代码(执行速度更快) (03:47)
    • 视频: 8-8 -SparkSQL愿景之二读取更少的数据 (11:02)
    • 视频: 8-9 -SparkSQL愿景之三让查询优化器帮助我们优化执行效率 (09:24)
    • 视频: 8-10 -SparkSQL愿景总结 (00:47)
  • 第9章 慕课网日志实战 30 节 | 307分钟

    本章使用Spark SQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及Spark on YARN。通过本实战项目将Spark SQL中的知识点融会贯通,达到举一反三的效果 ...

    收起列表

    • 视频: 9-1 -课程目录 (03:17)
    • 视频: 9-2 -用户行为日志概述 (15:15)
    • 视频: 9-3 -离线数据处理架构 (12:16)
    • 视频: 9-4 -项目需求 (04:43)
    • 视频: 9-5 imooc网主站日志内容构成 (04:14)
    • 视频: 9-6 数据清洗之第一步原始日志解析 (21:26)
    • 视频: 9-7 -数据清洗之二次清洗概述 (03:54)
    • 视频: 9-8 -数据清洗之日志解析 (23:08)
    • 视频: 9-9 -数据清洗之ip地址解析 (13:35)
    • 视频: 9-10 -数据清洗存储到目标地址 (06:04)
    • 视频: 9-11 -需求一统计功能实现 (12:12)
    • 视频: 9-12 -Scala操作MySQL工具类开发 (03:44)
    • 视频: 9-13 -需求一统计结果写入到MySQL (15:08)
    • 视频: 9-14 -需求二统计功能实现 (06:05)
    • 视频: 9-15 -需求二统计结果写入到MySQL (07:43)
    • 视频: 9-16 -需求三统计功能实现 (02:20)
    • 视频: 9-17 -需求三统计结果写入到MySQL (04:40)
    • 视频: 9-18 -代码重构之删除指定日期已有的数据 (06:59)
    • 视频: 9-19 -功能实现之数据可视化展示概述 (11:02)
    • 视频: 9-20 -ECharts饼图静态数据展示 (11:30)
    • 视频: 9-21 -ECharts饼图动态展示之一查询MySQL中的数据 (21:20)
    • 视频: 9-22 -ECharts饼图动态展示之二前端开发 (12:09)
    • 视频: 9-23 -使用Zeppelin进行统计结果的展示 (10:57)
    • 视频: 9-24 -Spark on YARN基础 (25:37)
    • 视频: 9-25 -数据清洗作业运行到YARN上 (15:49)
    • 视频: 9-26 -统计作业运行在YARN上 (07:15)
    • 视频: 9-27 -性能优化之存储格式的选择 (03:33)
    • 视频: 9-28 -性能调优之压缩格式的选择 (09:01)
    • 视频: 9-29 -性能优化之代码优化 (06:53)
    • 视频: 9-30 -性能调优之参数优化 (04:27)
  • 第10章 Spark SQL扩展和总结 9 节 | 68分钟

    本章将列举Spark SQL在工作中经常用到的方方方面的总结

    收起列表

    • 视频: 10-1 -课程目录 (04:09)
    • 视频: 10-2 -Spark SQL使用场景 (07:59)
    • 视频: 10-3 -Spark SQL加载数据 (22:12)
    • 视频: 10-4 -DataFrame与SQL的对比 (04:22)
    • 视频: 10-5 -Schema (03:35)
    • 视频: 10-6 -SaveMode (09:27)
    • 视频: 10-7 -处理复杂的JSON数据 (06:11)
    • 视频: 10-8 -SQL的覆盖程度 (04:51)
    • 视频: 10-9 -外部数据源 (05:01)
  • 第11章 补充内容 4 节 | 21分钟

    Spark SQL自定义外部数据源使用实战

    收起列表

    • 视频: 11-1 -课程安排 (02:00)
    • 视频: 11-2 -外部数据源接口 (07:34)
    • 视频: 11-3 -JDBC外部数据源实现源码分析 (06:34)
    • 视频: 11-4 -文本数据自定义外部数据源实现案例分享 (04:40)
  • 第12章 (彩蛋番外篇)Spark升级及新特性 4 节 | 36分钟

    本章将讲解Spark如何进行版本升级,然后介绍Spark SQL中的一些新的特性的用法。

    收起列表

    • 视频: 12-1 Spark版本升级 (07:08)
    • 视频: 12-2 Spark SQL中Time Window的使用 (14:22)
    • 视频: 12-3 Spark SQL中的Repartition和Coalesce的使用 (09:25)
    • 视频: 12-4 Spark SQL中Catalog的用法 (04:27)
  • 第13章 (讨论群内直播内容分享)透过SQL语法表象深入掌握底层执行过程 4 节 | 40分钟

    本次分享将从select、group by和join三种常见的SQL子句分别展开分析底层执行过程。

    收起列表

    • 视频: 13-1 为什么要掌握SQL的执行流程 (07:06)
    • 视频: 13-2 select执行流程 (09:34)
    • 视频: 13-3 group by执行流程 (13:21)
    • 视频: 13-4 join执行流程 (09:52)
本课程已完结


讲师

Michael_PK 全栈工程师

十二年互联网公司一线研发经验,担任大数据技术专家。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。

讲师其他课程

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
意见反馈 帮助中心 APP下载
官方微信

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题