全部试看小节
本章将从故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的技术以及大数据典型应用。
本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件、Hadoop发行版的选择,为后续深入讲解Hadoop打下坚实的基础。
本章将从Hadoop的设计目标、架构及文件系统命令空间出发,快速搭建单节点伪分布式HDFS的实验环境,通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程,并通过HDFS API来实现词频统计案例,使得大家对Hadoop分布式文件系统HDFS有深刻的认识以及实战。 ...
本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce各个核心组件编程,并通过两个案例让大家深入掌握MapReduce编程的方方面面。
本章将从YARN的产生背景、YARN的架构及执行流程的角度带大家认知Hadoop的资源调度框架YARN,快速搭建单节点伪分布式YARN的实验环境并掌握如何提交MapReduce作业提交到YARN上运行。
本章将通过电商用户行为日志分析的项目实战,来将前面几个章节讲解的知识点串联起来,综合使用Hadoop的技术进行离线统计分析。
本章将从Hive的产生背景、体系架构、Hive部署、DDL以及DML来掌握Hive使用的方方面面。
本章将使用Hive对电商用户行为日志分析进行重新实现,让大家对MapReduce编程和Hive实现的方式进行对比,体会Hive在生产上使用的便捷性。
本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,让大家对于Hadoop集群的安装有更深入的认识,并将项目实战案例运行在分布式集群环境中。
本章将从SQL中的join入手,详细剖析如何在MapReduce中实现JOIN,这是面试中经常被考察到的点,考察你的MapReduce功底以及优化策略。
本次分享中,主要针对剖析小文件的产生、对集群带来的影响以及解决方案相关内容进行了讲解。
本次分享主题主要剖析在生产上常用的Hadoop特性,如:小文件、集群间数据拷贝、回收站等。
本章中,将带领大家学习里程碑版本hadoop 3.x中带来了哪些新特性;掌握云主机的选型以及如何基于云主机进行Hadoop3.x的部署及使用;同时将升级本课程内容到Hadoop3.2.1。
本章中,将向大家介绍,压缩能为我们带来哪些好处,压缩格式以及压缩场景,压缩和解压缩编程实战,Hadoop结合压缩的使用。
在离线业务的各种业务指标分析时,行列互转、累积问题及窗口函数是在工作以及面试时必须要掌握的技能。在本章节的课程中,将通过知识点和案例带大家一起来掌握这项必备的技能。
生产上业务对应的Hive作业如何能高效的运行,这是作为一枚合格的大数据工程师的技能。本章节中,将带领大家一起针对Hive方方面面的调优进行探讨和学习。
全部试看小节
十二年互联网公司一线研发经验,担任大数据技术专家。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题