全部试看小节
Spark是当下在企业级开发中使用频率最高、最火热的分布式计算引擎之一,是我们必须要掌握的框架之一,本章节将带领大家一起了解Spark的特点、为后续深入学习打好基础。强调学习的方法论,以不变应万变。
带领大家在CentOS系统上进行常用大数据框架进行部署及构建本地开发环境
在正式学习Spark之前,本章将带领大家对Java和Scala中的迭代器进行深入讲解,并进行封装,开发一套自己的简易RDD的实现,统一接管各种不同数据源的接入及处理,为后续学习RDD打下坚实的基础
RDD是整个Spark的核心与基石,是面试Spark相关岗位时必考点,也是后续学习过程必须要掌握的技术点。本章将带领大家通过阅读源码深度分析RDD的各种特性,让大家知其然知其所以然
本章节将带领大家彻底掌握基于RDD开发过程中的三部曲:创建、转换、执行,在讲解算子使用的过程中通过源码分析,掌握Spark的编程。
本章节作为本课程大综合项目的第一个环节,将带领大家学习Spark处理地理位置信息相关数据的过程中必须要规避的各种坑,学习如何进行架构设计、技术选型、功能实现、优化、并通过经典面试题的分析和讲解让大家以正确且优雅的方式进行功能的开发与实现,最终进行可视化的展示...
在掌握了RDD的编程基础之上,本章节将带领大家进行RDD进阶的学习,让大家明白一个功能使用Spark开发可以有多种不同的实现,但最终的性能却是有很大的差距。在Spark开发和使用过程中并不是一劳永逸的,而是要根据不同的场景进行不同的分区器、缓存策略、分区调整算子的选择。...
本章节将带领大家在掌握核心术语的基础上掌握Spark的运行架构,并对Spark on YARN的两种不同模式的区别彻底掌握(这些是面试过程中的高频考点)
在企业级大数据开发过程中,功能开发仅仅是一部分,更为重要的一个环节是如何对应用进行监控,监控这个环节更为重要。本章节作为本课程大综合项目的第二个环节将带领大家学习如何对Spark应用程序进行监控以及如何告警,拒绝以黑盒的方式运行作业,掌握快速定位问题...
本章节带领大家学习常见的Spark作业的调优点,并通过源码分析,让大家以后不再惧怕源码,以后在使用过程中遇到各种异常,可以直接通过源码进行定位。
在企业中最常见的两种不同数据来源,一类是日志数据,可以使用Flume进行采集,还有一类是业务数据,本章节将带领大家学习如何使用DataX对业务库的数据采集到大数据平台,然后实现使用多种不同方式实现累计问题(这是一个工作及面试过程中非常常见的功能)...
知晓大模型发展历程、Chat GPT基本使用、动手大模型在日常生活和工作中的使用
本章节将带领大家快速对Spark SQL进行一个宏观上的认知,了解业界常用的SQL on Hadoop框架有哪些,纠正一些常见的错误认知,对于RDD编程能为我们带来什么
本章节将带领大家学习使用Spark SQL的内置的外部数据源快速对接各种不同存储系统上各种不同格式数据的读写操作,并对外部数据源的底层源码进行分析,为基于外部数据源的二次开发打下基础
本章节将带领大家进行DF、DS相关的编程,体会对比基于RDD的编程方式带来的好处
透过函数进行二次开发:UDF函数在Spark SQL中的使用
本章节将带领大家进行学习Spark SQL的执行流程和运行架构及优化,累加器的使用以及源码分析及新特性,执行流程部分是Spark SQL中非常核心的部分,也是在面试过程中的高频考点
数据服务是企业对外提供数据服务的管理平台,提供了数据接口的动态创建发布功能,对接口的统一管理,可以监控客户端对接口的调用、控制客户端对接口的权限。本章节将带领大家学习数据服务模块的部署及使用
调度系统是整个大数据平台的大脑,支持多种任务类型、配置参数、触发模式、低延迟是任务调度系统必备的核心能力
Iceberg是一个面向海量数据分析场景的开放表格式,处于计算框架之下,数据文件之上的一个开源数据湖的解决方案,数据湖是当下非常热门的技术,本章节将带领大家学习如何通过Hive、Spark、Iceberg进行数据湖的构建,让你在求职过程中的工作阅历添加亮点 ...
使用LangChain整合SQL的使用及使用pyspark-ai完成大数据统计分析。
针对Spark框架的核心执行流程进行源码分析,通过Debug的方式,一步一步带大家阅读源码,为以后再深究Spark以及在工作中遇到故障时知晓如何去定位框架底层的逻辑
在完成前面阶段的学习之后,本章节带领大家完成一个综合项目实战,通过六大功能将本课程所学的知识进行融会贯通,让大家知道在工作中的项目的开发流程、团队分工及人员构成、资源评估、资源隔离、功能开发、调优等一系列的疑问点或疑难点...
全部试看小节
十二年互联网公司一线研发经验,担任大数据技术专家。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题