本课程使用python3实战讲解了Spark核心功能组件,并结合调度爆款框架Azkaban,来对作业进行调度,最后以天气数据分析做为实战项目,让你学会对大数据进行处理与分析,让Python开发人员也能对Spark应用程序进行开发及调优。
核心RDD
RDD是什么及特性 RDD创建方式 SparkContext&SparkConf详解 使用IDE开发pyspark应用程序 提交spark应用程序到服务器上运行
RDD编程详解
RDD中常用Transformation算子使用 RDD中常用Action算子使用 处理词频统计迭代&访问量TopN 处理平均数&实现二次排序 面试题:Python Spark实现聚合功能
进阶
Spark核心概念&运行架构 Spark UI& Spark Shuffle详解 Spark和Hadoop重要概念区分 Spark中缓存的作用及选择 Spark窄依赖和宽依赖 Spark Lineage
Spark SQL
Spark SQL的架构 DataFrame&Dataset 使用Python API对DataFrame进行编程 Spark SQL常见的认识错误及纠正
Spark调优
序列化 内存管理 数据结构 广播变量 数据本地性
Spark Streaming
Spark Streaming概述 常用实时流处理框架 Spark Streaming执行原理、核心概念 使用PySpark API对Spark Streaming编程
企业级大数据应用 企业级大数据分析平台 企业级数据开发流程 大数据分析系统处理流程
根据数据量评估集群规划 企业常规需求分析 实战项目功能实现
项目部署到YARN上运行
大数据领域,Apache Spark是最受瞩目的开源项目之一,在国内外众多公司中广泛使用
不会Java、Scala语言的Python开发人员也能够使用Spark进行数据处理分析
不仅讲Azkaban,还讲Azkaban存在的弊端以及改进思路
结合项目实战,详解大数据分析平台的技术选型、以及集群资源的综合评估
关于课程的问题都可在问答区随时提问,讲
师会进行集中答疑
课程案例代码完全开放给你,你可以根据
所学知识,自行修改、优化
了解Python语言的想使用Spark进行数据处理分析的人员 了解Hadoop,想快速提升Spark技能的小伙伴 想转行投身大数据行业的小伙伴
熟悉常用Linux命令的使用 掌握Python同时有数据库SQL基础
maomaoking
好评
pk老师的课程都买了,一整套学习下来,发现项目实战按照老师的操作基本可以实现,我是想,如果在工作中,我拿到一个任务,我能否有思路呢?课程很好,希望能多推出更多更牛逼的项目实战课程!学习了spark_sql日志分析和spark_String以及Storm之后听这个课程会变得很简单。正在总结这几门课程,准备秋招哦!!!!
MindHacks
好评
老师的课程含金量不错,干货不少,而且授人以渔的讲授方法论,挺好的。买了全套课程支持一下老师。也希望我这个Java工程师转大数据工程师可以顺利。
老司莱斯
好评
老师讲课通俗易懂,提纲挈领过官方文档这步很良心,感觉这是对于系统学习 spark 最重要的学习方法。为老师打 call 接下来会考虑购买老师的其它课程。希望给我们这些“老顾客”设置一些优惠。
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题