以案例驱动,讲解Spark SQL大数据离线处理必备的知识点。使用Kudu整合Spark进行广告业务功能的实现,并针对已实现的需求代码进行调优;通过扩展Presto和大数据平台建设方面的相关内容,进一步学习提升。
Spark SQL快速入门
SQL on Hadoop
Spark SQL概述、架构、常见误区
spark-shell/spark-sql启动流程分析
Spark SQL API编程
SparkSession & SQLContext
DataSet & DataFrame API
DataFrame & DataSet
与RDD的互操作
Data Source API
Data Source API处理text/JSON/
Parquet/JDBC数据
SaveMode的正确选择
配置参数统一管理
整合Hive操作及函数
Spark整合Hive的数据操作
ThriftServer的使用
Spark SQL内置函数&自定义函数实战
Kudu
Kudu概述、核心概念、架构及部署
Kudu API操作
Spark Data Source API
读写Kudu数据
Spark调优策略
合理设置资源
广播变量带来的好处
Shuffle调优
Spark与GC相关概念理解
JVM GC引起的相关问题调优
Presto
Presto概述、架构
Presto部署
Presto API操作
综合案例实战
关于大数据云平台建设
大数据云平台建设涉及哪些功能
产品化设计思路
元数据在大数据平台中的设计思路
Spark VS Flink
夯实基础与应用 熟练掌握SparkSQL
对Spark SQL重新认识
对Spark的使用
Spark SQL对接TEXT、JSON等内置Data Source API的使用
spark-shell/spark-sql/spark-submit的基本使用
Spark SQL API编程的基本API使用
项目需求的功能实现
基于本地的开发和测试
基于Spark SQL进行大数据离线处理
基本的统计分析
基础之上再进阶 冲击Spark中高级工程师
Spark SQL对接TEXT、JSON等内置Data SourceAPI的使用
结合Kudu达到更好更快的性能 / Presto框架的使用
对接Kudu的Data Source API使用
详细拆解开脚本讲解的启动流程
基于业务需求定制开发自己的UDF函数
通过“死去活来法” 进行参数的灵活配置及读取
讲解基于已实现功能如何逐步优化使得性能更佳
项目多轮重构,使得项目架构层级更清晰
通过设计 ,以传递最少参数在服务器上运行
讲解构建大数据云平台中涉及到的方方面面
面向复杂的统计分析时,进行复杂业务功能的拆解思路
学习社群
课程专属学习交流群,与优秀的人共同进步:互相
帮助,共同分享。
课程源代码
免费提供课程源码,课程源码保持长期更新维护。
专题讨论
不定期组织技术话题讨论与群直播,疑难问题/热点
技术/职业规划/高效学习等热点观点等你参与。
问答社区
遇到困难随时提问,讲师亲自答疑解惑
适合人群
具备相关技术储备,想快速提升Spark技能以及想转行投身
大数据行业的小伙伴
技术储备要求
熟悉Linux常用操作 / 熟悉SQL基本使用
了解Hadoop基础知识 / 了解Scala基本语法
飞半天的鱼儿
好评
我之前就是跟着视频自学的hadoop和spark,现在重听PK哥的课程,又有好多收货,讲的特别清楚,最重要的是,跟着PK哥,现在慢慢学会了撸官网,有问题上官网,强烈推荐
慕仙713987
好评
追了这么多课,发现最牛的地方就是给大家一个概念——官方文档,学会了PK老师这点,受益无穷!真正的授人以渔。
我是毅哥
好评
一如既往的支持PK老师的新课,该课程的Spark SQL系统化正好弥补我这块所缺,加上Kudu项目、调优策略也都是喜欢的点!
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题