观看导学视频
资深大数据架构师
一个有野心的攻城狮,只要你熟悉Linux、SQL和一门编程语言就可以轻松华丽转型大数据攻城狮,“钱”途无限
以真实的“慕课网日志”这一应用案例为主线进行分析
采用最新的Spark稳定版2.1.x 为基础,依次介绍大数据热门技术:Hadoop、Hive、Sprak SQL
涉及数据清洗,统计存储,处理入库以及数据可视化(ECharts、Zeppelin)
最终形成一个完整的大数据项目
Hadoop
HDFS
MapReduce
YARN
Hive
Hive在Hadoop生态系统的位置
Hive体系架构
Hive部署架构(测试环境、生产环境)
从Hive平滑过渡到Spark SQL
Spark 2.1.X
Spark生态圈
零基础搭建Spark环境
Spark和Hadoop的协作性
Spark开发语言及运行模式
Spark SQL
DataFrame & DataSet
External DataSource API
慕课网日志分析项目实战
Spark调优
需求分析
剖析用户行为日志
离线数据处理架构
imooc日志内容构成
数据清洗
日志解析
IP地址解析
存储到目标地址
数据统计处理和入库
Scala操作MySQL工具类开发
功能实现
结果写到MySQL
数据可视化
ECharts饼图静态数据展示
ECharts饼图动态数据展示
Zeppelin统计结果展示
性能调优
Spark on YARN基础
存储/压缩格式的选择
代码/参数的优化
集成性好在Spark程序中无缝混合SQL、API查询
统一的数据访问以类似的方式连接到各种不同的外部数据源
兼容Hive已有Hive查询语句不用修改
支持标准连接通过JDBC、ODBC访问
Catalyst引擎底层有Catalyst进行自动优化
适合数据类型处理结构化与半结构化数据
问答专区
讲师集中答疑
关于课程的问题都可在问答区随时提问,讲师会进行集中答疑
源码开放
整套代码下载
课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化
有编程基础,想转行投身大数据行业的工程师;
有一定Hadoop/Spark基础的,但想快速提升自身能力的小伙伴;
选择本课程最合适不过了,一起开启大数据学习之旅吧!
学前必备技术
熟悉常用Linux命令、基本SQL的使用
熟悉编程语言Java/Scala/Python的任意一门均可
没有Scala基础的学员,可以先学习主站的《Scala程序设计-基础篇》课程
BaconNUDT
这老师,绝了!!讲得特别清楚,最重要的一点是什么,老师带着大家一起读源码、读文档,让大家不在对这些感到陌生。老师讲课也挺有意思的,value丝、table丝,各种丝~,期待老师出streaming和ML的课程。
十里桃花舞丶
老师讲的真的很棒~跟着老师已经听了3门课了(突然想起来忘了评价这一门了。。),想问老师一个很重要的问题,那就是什么时候出大数据面试的课程呀,已经准备好下手抢购了~!
小玲子zhl
以前看spark官网,没有思考那么多,老师讲的让我恍然大悟,很好,学到了很多。期待老师别的课程