全部试看小节
本章将从什么是大数据说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的。课程中,将介绍大数据的特性、大数据对我们带来的技术变革、大数据处理过程中涉及到的技术以及大数据典型应用。在这里,希望大家掌握学习的方法,得以真正不变应万变。...
本章中,将带领大家一起认识Hadoop:Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件(HDFS、YARN、MapReduce);探讨Hadoop生态圈的常用框架及职责,以及在工作中如何选择更适合的Hadoop的发行版,为后续深入学习打下坚实的基础。...
本章中,将从Hadoop的设计目标、架构及文件系统命令空间出发,带领大家快速搭建单节点伪分布式HDFS的环境。通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程以及安全模式在Hadoop中的使用,并结合HDFS API来实现词频统计案例,帮助大家对Hadoop分布式文件系统HDFS有深刻的认识并...
本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce整体执行流程以及各个核心组件编程,并通过N个实战案例让大家深入掌握,如何结合各种不同场景的应用基于MapReduce进行开发。本章中会详细剖析如何在MapReduce中实现JOIN,这也是面试中经常被考察到的点,考察你的MapReduce功底以及优...
本章将从YARN的产生背景、YARN的架构及执行流程的角度,带大家认知Hadoop的资源调度框架YARN,能够快速搭建单节点伪分布式YARN的实验环境,掌握如何提交MapReduce作业提交到YARN上运行,以及资源调度器的配置、使用及区别。
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,在后续Hadoop高可用部署时,需要使用ZK来进行主备切换。在本章中,将带领同学们学习ZooKeeper在企业级应用中的使用,掌握ZooKeeper的部署以及命令行使用。
本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,帮助大家掌握Hadoop集群的规划,掌握Hadoop HA的架构&原理 以及Hadoop集群的部署及测试,并能将项目实战案例轻松运行在分布式集群环境中。
本章将从Hive的产生背景、体系架构、Hive部署出发,帮助大家快速入门Hive,轻松掌握Hive的DDL以及DML操作、HiveQL的写法。在掌握JOIN MR的写法基础上通过执行计划重点掌握Hive Join的底层的执行原理;并结合多案例实战,帮助大家轻松掌握Hive中窗口分析函数的用法。...
本章将带领大家掌握,针对复杂数据时如何使用复杂数据类型(如:array、map、struct)对数据进行处理;学习Hive中内置函数的使用,能够轻松应对当内置函数不满足我们的生产需求时,如何自定义开发UDF函数来完成需求。
生产上业务对应的Hive作业如何能高效的运行,这是作为一枚合格的大数据工程师的必备技能。本章节中,将带领大家一起针对Hive方方面面的调优进行探讨和学习,帮助大家认识Hive在生产上的必备的各种调优手段。
本章将带领大家学习Flume框架是什么、能做什么、核心组件的功能、如何高效部署、如何采用Flume来完成日志数据(文件&文件夹)的收集工作、Flume在生产上不同的场景的经典部署方案、Flume Agent的不同选型及配置、以及在生产环境Flume高可用的使用方式。帮助大家快速入门!...
本章将介绍,Scala是什么、能为我们带来什么、Scala与Java开发方式的对比、帮助大家快速入门,掌握Scala编程的基础语法、运算符&流程控制语句的使用、函数的定义以及默认参数、命名参数、可变参数的使用,为后续Scala进阶的学习打下基础。...
本章节是Scala中面向对象开发的【重中之重】,每个知识点【务必都要掌握】。在本章中,将带领大家系统学习基于Scala的面向对象编程;类、构造器、继承、重写、抽象类的使用;伴生类、伴生对象的使用;case class的使用;Trait的使用;Scala中数组、List、Set、Map、Tuple、Option等各种不同数据结构的集合在开发过程中的使...
本章节是Scala基于函数式编程的核心所在!!!将带领大家,掌握Scala中字符串的高级操作、匿名函数、偏函数以及高阶函数的使用和自定义实现【此处是重点呦】、隐式转换的使用【此处是难点呦】。为后续学习Spark、Flink等打下坚实的基础(Spark、Flink开发过程中的很多算子都是和Scala的非常类似,源码及开发中涉及到非常多的隐...
本章将结合对比Java泛型的使用,系统学习泛型在Scala中的使用。带领大家轻松掌握在Scala中如何使用泛型来为框架的开发提供更强的通用性;如何使用逆变和协变来对已有类型来进行增强和变化【这部分是面试过程中的常考点!!!】...
Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。本章节将带领大家,掌握基于Akka的编程模型,掌握基于Akka来完成实现Hadoop NameNode和DataNode的通信方式,并能实战模拟Hadoop中NN和DN的通信机制。...
本章重点介绍RPC通信机制及编程。将带大家通过阅读Hadoop的核心源码,彻底掌握Hadoop底层的工作机制及原理;掌握Hadoop中RPC的编程模型及开发、Hadoop源码中核心节点的启动流程、MapReduce作业的执行流程及数据分片原理,以及Hadoop源码中数据的读写流程。本章节是面试中的常考点,更是我们必须要拿下的得分项。...
Hive是一个将Hive QL翻译成底层分布式作业执行的框架,那么从Hive QL发起后,中间经历了哪些过程?是如何将Hive QL翻译成分布式作业并执行的呢?我们将在本章节中带领大家阅读Hive的源码来体会整个过程,本章节能快速提升对Hive的认知,掌握如何进行Debug Hive源码一步步的跟踪底层实现,并能轻松应付面试过程中关于Hiv...
本章节将系统讲解基于Hadoop的大数据离线数仓项目,通过四个业务帮助大家,从架构设计、数据采集、数据处理、可视化、调优、拓展思路的角度掌握框架的综合使用。课程中,将帮助大家,掌握通用的几种大数据离线处理架构,以达到举一反三的应用;掌握如何基于MapReduce实现数据清洗、数据质量;掌握基于Hive QL掌握各种业务...
要论当前业界最火的大数据实时处理引擎,Flink要说第二,无人敢称第一。本章节为大家揭开Flink的神秘面纱:Flink是什么、它的发展史、特性;对比Spark它的优势;以及Flink在大厂中是如何被广泛实践的。
批流一体是当前以及未来的发展方向,如何使用Flink快速开发出批流一体的应用程序,是我们本章节的重点。同时,也会带领大家,总结出基于Flink进行开发的编程套路,助力轻松实践。
Flink应用程序开发完之后,在生产上都是运行在服务器上的。在知晓Flink的架构之后,我们将一起进行Flink环境的部署,并实践如何将Flink作业运行在服务器上。本章中,将涉及Flink的不用运行模式以及Flink UI的详细讲解,为后续要进行Flink应用的调优打下坚实的基础。...
大数据处理经典的三段论:接入数据、处理数据、输出结果。本章节将带领大家结合实战轻松掌握Flink如何对接外部数据、如何使用算子对数据进行各种处理以及如何将结果输出到外部系统。并会带领大家扩展,如何对Flink提供的API定制开发出自己需要的功能。...
如何使用Flink进行各种不同维度的统计分析并入库?如何在生产环境中,进行Flink应用开发的同时进行调优的思考?这将是我们本次实战场景将与大家一同探讨的问题。
在实时流处理框架中,Kafka和Flink是一对绝对且经典的CP,在生产上基本都是这2者的搭配使用。本章中,将带领大家通过对Kafka架构的图解引出核心概念,揭开Kafka的神秘面纱;轻松掌握Kafka的多种不同部署方式,以及如何使用命令行对Kafka进行操作,并对Kafka进行相关指标的监控。...
帮助大家彻底掌握整个执行流程,以及各个数据流转环节的调优,并能实现基于Java API对Kafka进行访问【核心知识点均采用面试题的方式进行逐一突破,带你轻松摆平面试官】。
Flink和Kafka是一对完美的CP,那这对CP是如何配对使用呢?本章中,将带领大家一起实践,Kafka分别作为Producer和Consumer如何整合Flume、Flink的综合使用技巧。
在掌握Flink和Kafka这对CP在生产上的使用之后,本章中,将带领大家,再次理解Kafka和Flink这组CP在生产上的搭配使用。如何使用Flink对接Kafka数据完成各项指标的统计分析?Flink对接Kafka在生产上使用时要注意如何优雅避坑?这些都将在课程中一一讲解。...
如何对窗口进行选型并结合Flink在生产上的使用?生产上如何处理由于网络抖动带来的数据乱序以及数据延迟的问题?Flink中的窗口能为我们带来将无穷无尽的流切分成小批次的处理,在本章中,将带领大家,通过案例实战彻底掌握Flink中有非常多的不同语义的窗口定义,并对划分后的窗口进行数据处理;结合Watermark机制,以及前一...
为什么说Flink是基于状态的流处理引擎,Flink是如何进行状态管理?为什么Flink要为我们提供要状态的管理?Flink有多种不同的状态管理方式,本掌中,将通过我们自定义的状态管理引入,结合案例实战,彻底掌握不同的状态管理的编程,并结合checkpoint&状态管理后端做到生产上端到端的状态管理一致性。...
Flink在生产上如何基于Window和State整合的最佳实践?如何重构出标准的Flink对接Kafka的代码,以便后期的复用?这一章中,让我们一起,深入探究并掌握,Flink中端到端的Exactly-once语义、数据乱序的解决方案吧。
相对于编程来说,SQL面向的受众更广,如果一个框架最终能落地到SQL进行数据处理,那必然是一个完美的选择,这也是业界大数据引擎所正在追求的路线。本章节我们重点来掌握,Flink如何使用SQL的方式来接入数据、处理数据、输出结果;以及如何基于Flink函数进行二次开发的技巧和套路。...
在不写代码的前提下,Flink CDC如何快速高效的对接外部数据库的数据? 对接外部各种数据库,在以前我们都是通过数据源的方式进行接入,是需要进行编程开发的,Flink深知痛点,提出CDC的解决方案,本章中,我们将一起实践,使用代码的方式,以及直接使用SQL的方式快速高效的将数据源对接到Flink框架上来。...
如何使用Flink CDC实时快速高效收集业务库数据?如何使用Flink SQL进行各维度统计分析?当使用Flink CDC时遇到整合Flink版本不兼容时,如何进行基于源码的二次开发?带着这些问题,我们一起开始本章的学习吧。
本章将带领大家,揭开当前业内最火的OLAP框架ClickHouse的面纱。基于场景入手,找出现存解决方案的痛点,应用ClickHouse的优势;ClickHouse的部署策略;如何对ClickHouse的配置进行修改,并使用官方提供的数据集;如何合理应用ClickHouse的各种不同数据类型以及注意事项;如何优雅使用ClickHouse的各种内置函数等等实用技巧...
在本章节中,让我们一起来玩转,ClickHouse中关于库、表、视图的核心操作。掌握库&表&视图的DDL以及DML操作。
ClickHouse为我们提供了非常多的引擎,在本章节中,我们将来彻底掌握,ClickHouse中各种不同引擎的选择及使用(这也是ClickHouse中最核心的部分)。课程中我们将通过案例实战的方式,在掌握不同引擎的使用以及区别的基础上,根据不同引擎的特性掌握在生产上遇到不同场景时选择引擎的最优策略。...
本章中,我们将结合对ClickHouse中所涉及到的库、表、函数等的元数据管理的系统梳理,深度探究ClickHouse中创建的表在底层是如何进行拆分和组合的;如何应用ClickHouse的标准jdbc编程,以及Flink整合ClickHouse的数据读写操作编程中的各种避坑技巧。...
如何打造基于Flink的标准化将数据清洗后统一接入到ClickHouse?如何基于ClickHouse SQL进行各种维度的统计分析?如何进行Flink&ClickHouse的运行指标可视化监控?好了,让我们在本章的实践中,一一揭秘。
数据湖是什么?能为企业带来什么?湖仓一体是未来的发展趋势,现在很多云产商都在基于开源数据湖框架进行自研,构建出数据湖的商业产品,所以数据湖相关技术是我们必须要掌握的技能。本章中,让我们一起揭开Hudi的神秘面纱,带你认识目前企业应用对最高的数据湖产品。...
湖仓一体能为我们带来什么?存算分离带来的优缺点?如何基于Flink和Hudi构建数据湖?这些就是我们本章将带领大家实践的重要内容!
全部试看小节
十二年互联网公司一线研发经验,担任大数据技术专家。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题