收藏

轻松入门大数据:一站式完成核心能力构建

十二年技术老兵,带你操盘企业级项目,打造数据思维

轻松入门大数据 一站式完成核心能力构建

¥1199.00
已完结 难度 初级 时长 55小时 学习人数 170 综合评分 10.00
  • 第1章 高薪择业:为什么大数据行业更有前途? 试看 8 节 | 36分钟

    本章将从什么是大数据说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的。课程中,将介绍大数据的特性、大数据对我们带来的技术变革、大数据处理过程中涉及到的技术以及大数据典型应用。在这里,希望大家掌握学习的方法,得以真正不变应万变。...

    收起列表

    • 视频: 1-1 为什么大数据行业更有钱途? (09:18) 试看
    • 视频: 1-2 本章学习安排 (01:08)
    • 视频: 1-3 什么是大数据 (03:23)
    • 视频: 1-4 大数据特点(4V) (05:32)
    • 视频: 1-5 大数据带来的变革 (06:19)
    • 视频: 1-6 大数据应用场景 (03:26)
    • 视频: 1-7 大数据前景 (01:55)
    • 视频: 1-8 大数据学习方法论 (04:03)
  • 第2章 零基础:急速入门大数据基石框架Hadoop 7 节 | 36分钟

    本章中,将带领大家一起认识Hadoop:Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件(HDFS、YARN、MapReduce);探讨Hadoop生态圈的常用框架及职责,以及在工作中如何选择更适合的Hadoop的发行版,为后续深入学习打下坚实的基础。...

    收起列表

    • 视频: 2-1 课程目录 (01:15)
    • 视频: 2-2 Hadoop概述 (07:26)
    • 视频: 2-3 Hadoop发展史(了解) (05:22)
    • 视频: 2-4 认识Hadoop三大核心组件 (05:56)
    • 视频: 2-5 大数据生态圈 (07:58)
    • 视频: 2-6 发行版的选择 (07:24)
    • 图文: 2-7 【面试官来啦】面试讨论题
  • 第3章 入门到进阶:系统玩转分布式文件系统HDFS 38 节 | 256分钟

    本章中,将从Hadoop的设计目标、架构及文件系统命令空间出发,带领大家快速搭建单节点伪分布式HDFS的环境。通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程以及安全模式在Hadoop中的使用,并结合HDFS API来实现词频统计案例,帮助大家对Hadoop分布式文件系统HDFS有深刻的认识并...

    收起列表

    • 视频: 3-1 课程目录 (02:24)
    • 图文: 3-2 【前置准备】云主机开通及使用
    • 视频: 3-3 初识HDFS (07:08)
    • 视频: 3-4 HDFS假设和目标 (16:25)
    • 视频: 3-5 【重要!必掌握】HDFS架构 (12:25)
    • 视频: 3-6 文件系统命名空间 (03:55)
    • 视频: 3-7 副本因子及副本拜访策略 (12:13)
    • 视频: 3-8 【重要!必掌握】经典面试题 (05:41)
    • 视频: 3-9 HDFS优缺点 (03:26)
    • 视频: 3-10 Hadoop解压及重要目录讲解 (07:23)
    • 视频: 3-11 HDFS核心配置文件及免密码登陆 (09:36)
    • 视频: 3-12 HDFS启停(整体和单个) (11:18)
    • 视频: 3-13 环境变量补充 (02:05)
    • 视频: 3-14 初识HDFS常用命令 (03:29)
    • 视频: 3-15 HDFS命令行操作之文件上传 (09:30)
    • 视频: 3-16 HDFS命令行操作之文件内容查看 (02:44)
    • 视频: 3-17 HDFS命令行操作之文件下载 (02:57)
    • 视频: 3-18 HDFS命令行操作之其他常用操作 (08:42)
    • 视频: 3-19 HDFS API开发之基本环境介绍 (05:23)
    • 视频: 3-20 jUnit快速入门 (08:42)
    • 视频: 3-21 jUnit生命周期(上) (03:58)
    • 视频: 3-22 jUnit生命周期(下) (04:06)
    • 视频: 3-23 HDFS API开发之创建文件夹 (11:10)
    • 视频: 3-24 HDFS API开发之上传文件 (07:36)
    • 视频: 3-25 HDFS API开发之参数优先级问题 (07:10)
    • 视频: 3-26 HDFS API开发之文件下载和重命名 (03:37)
    • 视频: 3-27 HDFS API开发之代码重构 (03:36) 试看
    • 视频: 3-28 HDFS API开发之列表展示功能 (07:51)
    • 视频: 3-29 HDFS API开发之删除操作 (01:14)
    • 视频: 3-30 HDFS API开发之基于IO流的方式 (05:44)
    • 视频: 3-31 【重要!必掌握】经典面试题之HDFS写数据流程 (14:07)
    • 视频: 3-32 【重要!必掌握】经典面试题之HDFS读数据流程 (07:51)
    • 视频: 3-33 【重要!必掌握】NameNode&SecondaryNameNode工作机制(上) (12:45)
    • 视频: 3-34 【重要!必掌握】NameNode&SecondaryNameNode工作机制(下) (10:32)
    • 视频: 3-35 【重要!必掌握】DataNode工作机制 (12:09)
    • 视频: 3-36 安全模式 (06:58)
    • 图文: 3-37 【面试官来啦】面试讨论题
    • 作业: 3-38 【练练练】阶段作业题
  • 第4章 入门到进阶:系统玩转分布式计算框架MapReduce 61 节 | 440分钟

    本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce整体执行流程以及各个核心组件编程,并通过N个实战案例让大家深入掌握,如何结合各种不同场景的应用基于MapReduce进行开发。本章中会详细剖析如何在MapReduce中实现JOIN,这也是面试中经常被考察到的点,考察你的MapReduce功底以及优...

    收起列表

    • 视频: 4-1 课程目录 (08:04)
    • 视频: 4-2 初识MapReduce框架 (06:42)
    • 视频: 4-3 MapReduce框架的优缺点 (07:17)
    • 视频: 4-4 【重要!必掌握】MapReduce思想 (09:54)
    • 视频: 4-5 MapReduce核心进程 (03:29)
    • 视频: 4-6 官方词频统计案例分析 (13:59)
    • 视频: 4-7 词频统计数据流图解 (03:29)
    • 视频: 4-8 MapReduce编程规范 (06:56)
    • 视频: 4-9 初识MR编程中的数据类型 (03:09)
    • 视频: 4-10 词频统计之自定义Mapper (08:08)
    • 视频: 4-11 词频统计之自定义Reducer (05:10)
    • 视频: 4-12 词频统计之自定义Driver (05:53)
    • 视频: 4-13 词频统计之测试及重构 (05:53)
    • 视频: 4-14 词频统计之Mapper源码分析 (12:10) 试看
    • 视频: 4-15 词频统计之Reducer源码分析 (04:17)
    • 视频: 4-16 词频统计之模板方法模式 (07:20)
    • 视频: 4-17 序列化概述 (04:13)
    • 视频: 4-18 序列化之JDK自带的序列化机制 (05:37)
    • 视频: 4-19 序列化之Data序列化机制 (06:23)
    • 视频: 4-20 Hadoop序列化之Writable接口详解 (06:42)
    • 视频: 4-21 Hadoop序列化之需求分析 (08:16)
    • 视频: 4-22 Hadoop序列化之自定义序列化类 (03:20)
    • 视频: 4-23 Hadoop序列化之自定义Mapper类 (03:51)
    • 视频: 4-24 Hadoop序列化之自定义Reducer类 (02:59)
    • 视频: 4-25 Hadoop序列化之自定义Driver类及测试 (06:58)
    • 视频: 4-26 Hadoop序列化之总结 (04:01)
    • 视频: 4-27 初识InputFormat&InputSplit (10:16)
    • 视频: 4-28 InputSplit和Block的关系 (05:18)
    • 视频: 4-29 本地IDEA运行时InputSplit的大小测试 (08:16)
    • 视频: 4-30 认识FileInputFormat (02:18)
    • 视频: 4-31 TextInputFormat编程 (06:39)
    • 视频: 4-32 KeyValueTextInputFormat编程 (10:15)
    • 视频: 4-33 NLineInputFormat编程 (06:55)
    • 视频: 4-34 DBInputFormat编程 (14:55)
    • 视频: 4-35 Partitioner功能及编程 (11:21)
    • 视频: 4-36 本地预计算Combiner意义 (08:10)
    • 视频: 4-37 本地预计算Combiner编程 (08:44)
    • 视频: 4-38 排序概述 (07:16)
    • 视频: 4-39 排序之全局排序编程 (08:27)
    • 视频: 4-40 排序之分区排序编程 (04:07)
    • 视频: 4-41 通过源码认识OutputFormat (06:07)
    • 视频: 4-42 OutputFormat编程之输出数据到MySQL表中 (09:24)
    • 视频: 4-43 OutputFormat编程之自定义OutputFormat (14:24)
    • 视频: 4-44 MapReduce全流程之MapTask工作原理 (16:53)
    • 视频: 4-45 MapReduce全流程之ReduceTask工作原理 (07:21)
    • 视频: 4-46 MapReduce全流程之Shuffle工作原理 (06:27)
    • 视频: 4-47 MapReduce全流程之调优 (19:35)
    • 视频: 4-48 MapReduce全流程之加强 (04:16)
    • 视频: 4-49 场景题之group by需求分析 (05:03)
    • 视频: 4-50 场景题之group by功能开发及测试 (05:56)
    • 视频: 4-51 场景题之distinct需求分析 (02:46)
    • 视频: 4-52 场景题之distinct功能实现及测试 (02:58)
    • 视频: 4-53 场景题之ReduceJoin需求分析 (09:36)
    • 视频: 4-54 场景题之ReduceJoin自定义序列化类 (04:06)
    • 视频: 4-55 场景题之ReduceJoin功能开发及测试 (13:09)
    • 视频: 4-56 场景题之ReduceJoin的弊端 (03:14)
    • 视频: 4-57 场景题之MapJoin原理分析 (08:29)
    • 视频: 4-58 场景题之MapJoin功能实现及测试 (12:19)
    • 视频: 4-59 基于MR编程开发核心组件系统性梳理 (10:48)
    • 图文: 4-60 【面试官来啦】面试讨论题
    • 作业: 4-61 【练练练】阶段作业题
  • 第5章 入门到进阶:玩转资源管理系统YARN 19 节 | 107分钟

    本章将从YARN的产生背景、YARN的架构及执行流程的角度,带大家认知Hadoop的资源调度框架YARN,能够快速搭建单节点伪分布式YARN的实验环境,掌握如何提交MapReduce作业提交到YARN上运行,以及资源调度器的配置、使用及区别。

    收起列表

    • 视频: 5-1 课程目录 (01:33)
    • 视频: 5-2 YARN产生背景 (06:56)
    • 视频: 5-3 YARN架构核心组件 (05:52)
    • 视频: 5-4 【重要!必掌握】YARN核心组件职责 (13:26)
    • 视频: 5-5 【重要!必掌握】YARN工作原理 (08:14)
    • 视频: 5-6 YARN容错性 (02:56)
    • 视频: 5-7 以YARN为核心的生态系统 (02:37)
    • 视频: 5-8 YARN单节点部署 (03:30)
    • 视频: 5-9 提交官方自带案例到YARN上运行并认识YARN UI界面 (06:36)
    • 视频: 5-10 开启作业历史服务器 (03:49)
    • 视频: 5-11 YARN命令(掌握使用方法) (11:01)
    • 视频: 5-12 【重要!必掌握】打包自己开发的作业到YARN上运行 (07:08)
    • 视频: 5-13 初识YARN调度器 (03:37)
    • 视频: 5-14 调度器之FIFO (02:05)
    • 视频: 5-15 调度器之CapacityScheduler深入详解 (11:49)
    • 视频: 5-16 【重要!必掌握】调度器之CapacityScheduler队列配置及测试 (12:45)
    • 视频: 5-17 【重要!必掌握】调度器之CapacityScheduler优先级配置及测试 (02:55)
    • 图文: 5-18 【面试官来啦】面试讨论题
    • 作业: 5-19 【练练练】阶段作业题
  • 第6章 入门到进阶:系统玩转分布式协调服务ZooKeeper 15 节 | 87分钟

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,在后续Hadoop高可用部署时,需要使用ZK来进行主备切换。在本章中,将带领同学们学习ZooKeeper在企业级应用中的使用,掌握ZooKeeper的部署以及命令行使用。

    收起列表

    • 视频: 6-1 课程目录 (01:51)
    • 视频: 6-2 初识ZK (04:32)
    • 视频: 6-3 ZK角色及选举机制 (12:30)
    • 视频: 6-4 ZK在企业中的使用场景 (07:45)
    • 视频: 6-5 ZK单机单Server部署 (08:44)
    • 视频: 6-6 【重要!必掌握】ZK数据模型 (08:15)
    • 视频: 6-7 ZK命令行详解之创建 (07:38)
    • 视频: 6-8 ZK命令行详解之修改和删除 (03:17)
    • 视频: 6-9 初识ZK中的监听器 (01:55)
    • 视频: 6-10 【重要!必掌握】ZK监听器实操 (06:17)
    • 视频: 6-11 ZK命令行详解之四字命令 (06:55)
    • 视频: 6-12 ZK集群核心概念 (04:38)
    • 视频: 6-13 ZK单节点多Server部署及HA测试 (12:24)
    • 图文: 6-14 【面试官来啦】面试讨论题
    • 作业: 6-15 【练练练】阶段作业题
  • 第7章 进阶实战:轻松搞定Hadoop分布式集群环境 9 节 | 56分钟

    本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,帮助大家掌握Hadoop集群的规划,掌握Hadoop HA的架构&原理 以及Hadoop集群的部署及测试,并能将项目实战案例轻松运行在分布式集群环境中。

    收起列表

    • 视频: 7-1 课程目录 (02:01)
    • 视频: 7-2 从单机版引入到集群版 (04:21)
    • 视频: 7-3 Hadoop集群规划及准备工作 (08:41)
    • 视频: 7-4 Hadoop集群部署及测试 (09:50)
    • 视频: 7-5 Hadoop HA架构 (15:37)
    • 视频: 7-6 ZK分布式环境部署 (03:49)
    • 视频: 7-7 Hadoop集群HDFS HA配置及测试 (11:03)
    • 图文: 7-8 【面试官来啦】面试讨论题
    • 作业: 7-9 【练练练】阶段作业题
  • 第8章 零基础:急速入门数据仓库工具Hive 13 节 | 83分钟

    本章将从Hive的产生背景、体系架构、Hive部署出发,帮助大家快速入门Hive,轻松掌握Hive的使用以及部署。

    收起列表

    • 视频: 8-1 课程目录 (01:18)
    • 视频: 8-2 Hive产生背景 (08:23)
    • 视频: 8-3 Hive是什么 (10:56)
    • 视频: 8-4 Hive的优缺点 (05:27)
    • 视频: 8-5 【重要!必掌握】Hive架构 (13:48)
    • 视频: 8-6 Hive部署架构 (05:36)
    • 视频: 8-7 经典面试题 (07:27)
    • 视频: 8-8 Hive部署及快速使用 (11:47)
    • 视频: 8-9 Hive中参数的设置和使用 (11:33)
    • 视频: 8-10 Hive访问方式之HS2&beeline (03:16)
    • 视频: 8-11 【重要!必掌握】Hive中两个重要参数的用法 (02:58)
    • 图文: 8-12 【面试官来啦】面试讨论题
    • 作业: 8-13 【练练练】阶段作业题
  • 第9章 入门到进阶:如何快速掌握Hive DDL&DML 28 节 | 151分钟

    本章将带领大家,学习Hive中核心的DDL、DML操作、HiveQL的写法;掌握Hive表(内部表、外部表、分区表)的使用、Hive中多种不同数据的加载方式;在掌握JOIN MR的写法基础上通过执行计划,重点掌握Hive Join的底层的执行原理;并结合多案例实战,帮助大家轻松掌握Hive中窗口分析函数的用法。...

    收起列表

    • 视频: 9-1 课程目录 (02:02)
    • 视频: 9-2 【重要!必掌握】Hive数据模型 (05:01)
    • 视频: 9-3 DDL之创建数据库 (10:20)
    • 视频: 9-4 DDL之修改和删除数据库 (04:03)
    • 视频: 9-5 Hive数据类型&分隔符 (06:11)
    • 视频: 9-6 DDL之创建表语法 (06:38)
    • 视频: 9-7 DDL之创建表实操 (05:51)
    • 视频: 9-8 经典面试题分析之内部表 (04:19)
    • 视频: 9-9 经典面试题分析之外部表 (03:29)
    • 视频: 9-10 经典面试题分析之内外部表转换问题 (04:17)
    • 视频: 9-11 【重要!必掌握】经典面试题分析之内外部表对比及使用场景 (03:00)
    • 视频: 9-12 DDL之修改表实操 (05:39)
    • 视频: 9-13 经典面试题之drop和truncate的区别 (02:46)
    • 视频: 9-14 【重要!必掌握】DML之表数据加载的N种姿势 (18:26)
    • 视频: 9-15 经典面试题之为什么不使用insert values的写法呢 (03:36)
    • 视频: 9-16 DML之通过SQL导出数据 (05:11)
    • 视频: 9-17 【重要!必掌握】DML之export&import实操 (03:13)
    • 视频: 9-18 关于truncate的思考题 (01:43)
    • 视频: 9-19 分区表意义何在 (04:03)
    • 视频: 9-20 分区表实操之单分区表创建及数据加载 (11:34)
    • 视频: 9-21 分区表实操之多级分区表创建及数据加载 (02:19)
    • 视频: 9-22 场景题之使用动态分区解决复杂问题 (10:07)
    • 视频: 9-23 SQL查询之基础使用 (06:41)
    • 视频: 9-24 SQL查询之聚合函数的使用 (01:47)
    • 视频: 9-25 【重要!必掌握】SQL查询之分组函数的使用 (05:08)
    • 视频: 9-26 【重要!必掌握】SQL查询之JOIN的使用 (13:03)
    • 图文: 9-27 【面试官来啦】面试讨论题
    • 作业: 9-28 【练练练】阶段作业题
  • 第10章 入门到进阶:如何快速掌握Hive核心函数 31 节 | 186分钟

    本章将带领大家掌握,针对复杂数据时如何使用复杂数据类型(如:array、map、struct)对数据进行处理;学习Hive中内置函数的使用,能够轻松应对当内置函数不满足我们的生产需求时,如何自定义开发UDF函数来完成需求。

    收起列表

    • 视频: 10-1 课程目录 (01:58)
    • 视频: 10-2 动手实操复杂数据类型之array (07:37)
    • 视频: 10-3 动手实操复杂数据类型之map (10:55)
    • 视频: 10-4 动手实操复杂数据类型之struct (03:35)
    • 视频: 10-5 如何去挖掘Hive中内置函数使用的方法论 (03:07)
    • 视频: 10-6 动手实操日期时间函数的使用 (13:22)
    • 视频: 10-7 动手实操取整相关函数的使用 (03:25)
    • 视频: 10-8 动手实操字符串相关函数的使用 (07:57)
    • 视频: 10-9 动手实操场景题之处理json数据 (10:58)
    • 视频: 10-10 动手实操URL函数的使用 (03:44)
    • 视频: 10-11 动手实操NVL函数的使用 (01:53)
    • 视频: 10-12 动手实操场景题之条件控制函数的使用 (11:23)
    • 视频: 10-13 【重要!必掌握】动手实操场景题之行列转换功能一 (04:40)
    • 视频: 10-14 【重要!必掌握】动手实操场景题之行列转换功能二 (06:57)
    • 视频: 10-15 【重要!必掌握】动手实操场景题之使用Hive完成wc统计 (03:39)
    • 视频: 10-16 初识Hive UDF函数 (02:30)
    • 视频: 10-17 动手实操开发自定义UDF函数之UDF实现类的开发 (03:08)
    • 视频: 10-18 【重要!必掌握】动手实操开发自定义UDF函数之UDF临时函数的注册和使用 (08:29)
    • 视频: 10-19 【重要!必掌握】动手实操开发自定义UDF函数之UDF永久函数的注册和使用 (04:10)
    • 视频: 10-20 自定义UDF扩展之如何集成Hive源码进行二次开发 (02:53)
    • 视频: 10-21 动手实操开发自定义UDF函数之新版本UDF开发及使用 (09:14)
    • 视频: 10-22 动手实操开发自定义UDTF函数开发及使用 (08:28)
    • 视频: 10-23 【重要!必掌握】窗口分析函数场景sum over的使用 (19:46)
    • 视频: 10-24 窗口分析函数场景NTILE的使用 (04:50)
    • 视频: 10-25 【重要!必掌握】窗口分析函数场景row_number&rank&dense_rank的使用 (05:43)
    • 视频: 10-26 窗口分析函数场景lag&lead的使用 (07:11)
    • 视频: 10-27 窗口分析函数场景firstvalue&lastvalue的使用 (02:18)
    • 视频: 10-28 窗口分析函数场景cume_dist&precent_rank的使用 (07:39)
    • 视频: 10-29 动手实操之窗口函数综合使用 (03:56)
    • 图文: 10-30 【面试官来啦】面试讨论题
    • 作业: 10-31 【练练练】阶段作业题
  • 第11章 入门到进阶:如何快速学会Hive调优 20 节 | 94分钟

    生产上业务对应的Hive作业如何能高效的运行,这是作为一枚合格的大数据工程师的必备技能。本章节中,将带领大家一起针对Hive方方面面的调优进行探讨和学习,帮助大家认识Hive在生产上的必备的各种调优手段。

    收起列表

    • 视频: 11-1 课程目录 (01:52)
    • 视频: 11-2 Hive调优概述 (03:00)
    • 视频: 11-3 Hive作业什么时候跑MR作业 (07:41)
    • 视频: 11-4 Hive作业如何以本地方式运行 (04:24)
    • 视频: 11-5 Hive严格模式带来的好处 (03:53)
    • 视频: 11-6 Hive4大by之order by (03:25)
    • 视频: 11-7 Hive4大by之sort by (05:13)
    • 视频: 11-8 Hive4大by之distribute by (08:22)
    • 视频: 11-9 Hive4大by之cluster by (02:41)
    • 视频: 11-10 Hive4大by总结 (03:44)
    • 视频: 11-11 Hive并行执行的适用场景 (04:04)
    • 视频: 11-12 Hive推测式执行能为我们带来的利弊 (07:50)
    • 视频: 11-13 Hive如何设置合理的MapTask数量 (06:44)
    • 视频: 11-14 Hive如何设置合理的ReduceTask数量 (04:51)
    • 视频: 11-15 分布式计算框架中产生数据倾斜的根本原因 (05:49)
    • 视频: 11-16 场景之groupby的数据倾斜解决方案 (06:23)
    • 视频: 11-17 场景之count(disintct)的数据倾斜解决方案 (05:12)
    • 视频: 11-18 场景之join的数据倾斜解决方案 (08:40)
    • 图文: 11-19 【面试官来啦】面试讨论题
    • 作业: 11-20 【练练练】阶段作业题
  • 第12章 零基础:急速入门日志收集系统Flume 13 节 | 67分钟

    本章将带领大家学习Flume框架是什么、能做什么、核心组件的功能以及如何高效部署,帮助大家快速入门。

    收起列表

    • 视频: 12-1 课程目录 (01:36)
    • 视频: 12-2 Flume产生背景 (08:29)
    • 视频: 12-3 采集vs收集 (06:27)
    • 视频: 12-4 初识Flume及学习姿势 (09:15)
    • 视频: 12-5 竞品分析 (04:31)
    • 视频: 12-6 发展史 (02:41)
    • 视频: 12-7 【重要!必掌握】Flume核心组件 (10:33)
    • 视频: 12-8 Flume Agent配置文件编写指南 (08:46)
    • 视频: 12-9 Flume部署 (03:15)
    • 视频: 12-10 Agent启动及测试 (07:46)
    • 视频: 12-11 数据传输基本单元Event (03:27)
    • 图文: 12-12 【面试官来啦】面试讨论题
    • 作业: 12-13 【练练练】阶段作业题
  • 第13章 进阶实战:如何基于Flume实战日志数据收集 13 节 | 101分钟

    本章节将讲解,如何采用Flume来完成日志数据(文件&文件夹)的收集工作、Flume在生产上不同的场景的经典部署方案、Flume Agent的不同选型及配置、以及在生产环境Flume高可用的使用方式。

    收起列表

    • 视频: 13-1 课程目录 (01:44)
    • 视频: 13-2 实战之监控某个文件新增的内容并输出到HDFS (16:30)
    • 视频: 13-3 实战之监控某个文件夹下新增的内容并输出到HDFS (15:08)
    • 视频: 13-4 实战之监控某个文件夹下新增的内容并输出到HDFS分区中 (09:29)
    • 视频: 13-5 【重要!必掌握】实战之TAILDIR断点续传收集数据 (11:23)
    • 视频: 13-6 【重要!必掌握】生产场景理解 (04:46)
    • 视频: 13-7 avrosink和avrosource配对使用 (11:18)
    • 视频: 13-8 认识Channel Selector (07:30)
    • 视频: 13-9 【重要!必掌握】实战之Channel Selector (07:25)
    • 视频: 13-10 认识Sink Processor (03:22)
    • 视频: 13-11 【重要!必掌握】实战之Sink Processor (12:09)
    • 图文: 13-12 【面试官来啦】面试讨论题
    • 作业: 13-13 【练练练】阶段作业题
  • 第14章 零基础:为什么大数据编程首选Scala语言 8 节 | 32分钟

    本章将介绍,Scala是什么、能为我们带来什么、Scala与Java开发方式的对比、帮助大家快速入门。

    收起列表

    • 视频: 14-1 课程目录 (00:49)
    • 视频: 14-2 Scala是什么 (06:55)
    • 视频: 14-3 学习Scala的意义何在 (05:30)
    • 视频: 14-4 Scala安装及快速使用 (06:41)
    • 视频: 14-5 Scala与JVM的关系 (06:37)
    • 视频: 14-6 基于IDEA构建Scala项目 (05:04)
    • 图文: 14-7 【面试官来啦】面试讨论题
    • 作业: 14-8 【练练练】阶段作业题
  • 第15章 零基础:急速入门大数据编程首选语言Scala 22 节 | 159分钟

    本章将带领大家,掌握Scala编程的基础语法、运算符&流程控制语句的使用、函数的定义以及默认参数、命名参数、可变参数的使用,为后续Scala进阶的学习打下基础。

    收起列表

    • 视频: 15-1 课程目录 (02:42)
    • 视频: 15-2 注释之论一个码农的自我修养 (12:52)
    • 视频: 15-3 标识符之论起名的艺术 (13:14)
    • 视频: 15-4 宏观了解Scala中的数据类型 (02:26)
    • 视频: 15-5 值和变量(注意理解第二个场景) (09:41)
    • 视频: 15-6 数据类型 (09:30)
    • 视频: 15-7 数据类型转换 (09:15)
    • 视频: 15-8 【重要!必掌握】字符串操作 (09:53)
    • 视频: 15-9 实操之从控制台终端获取数据 (05:07)
    • 视频: 15-10 运算符的用法 (05:32)
    • 视频: 15-11 条件分支详解 (10:37)
    • 视频: 15-12 循环之while&dowhile (09:37)
    • 视频: 15-13 循环之while以优雅的方式退出 (05:45)
    • 视频: 15-14 【重要!必掌握】循环之for (18:10)
    • 视频: 15-15 通过场景引出方法 (02:53)
    • 视频: 15-16 【重要!必掌握】方法的定义和使用 (09:43)
    • 视频: 15-17 【重要!必掌握】 默认参数 (04:59)
    • 视频: 15-18 命名参数 (03:50)
    • 视频: 15-19 【重要!必掌握】变长参数 (06:43)
    • 视频: 15-20 数据类型补充之Unit&Null&Nothing (05:48)
    • 图文: 15-21 【面试官来啦】面试讨论题
    • 作业: 15-22 【练练练】阶段作业题
  • 第16章 入门到进阶:如何熟练掌握Scala面向对象编程 20 节 | 133分钟

    在本章中,将带领大家系统学习基于Scala的面向对象编程;类、构造器、继承、重写、抽象类的使用;伴生类、伴生对象的使用;case class的使用;Trait的使用等Scala面向对象开发的重中之重的核心知识,每个知识点请大家【务必都要掌握】!...

    收起列表

    • 视频: 16-1 课程目录 (02:07)
    • 视频: 16-2 面向对象三大特性 (07:17)
    • 视频: 16-3 【重要!必掌握】通过女朋友认识类和对象的关系 (04:50)
    • 视频: 16-4 定义类并通过反编译掌握属性对应的方法构成 (08:55)
    • 视频: 16-5 【重要!必掌握】占位符在Scala中的使用 (02:37)
    • 视频: 16-6 通过反编译掌握private关键字的使用 (02:22)
    • 视频: 16-7 构造器与附属构造器的使用及阅读源码 (07:47)
    • 视频: 16-8 继承&重写的使用及阅读源码 (10:48)
    • 视频: 16-9 抽象类的使用及阅读源码 (08:23)
    • 视频: 16-10 【重要!必掌握】伴生类&伴生对象 (17:13)
    • 视频: 16-11 从面试题说起case class&case object (08:13)
    • 视频: 16-12 trait的定义及使用 (13:08)
    • 视频: 16-13 动态混入&自身类型 (07:50)
    • 视频: 16-14 包管理以及隐式转换导入 (10:20)
    • 视频: 16-15 【重要!必掌握】packageobject的使用 (05:19)
    • 视频: 16-16 类型转换&类型判断&类型别名 (08:12)
    • 视频: 16-17 枚举的使用 (03:13)
    • 视频: 16-18 App小技巧的使用 (03:35)
    • 图文: 16-19 【面试官来啦】面试讨论题
    • 作业: 16-20 【练练练】阶段作业题
  • 第17章 入门到进阶:如何熟练掌握Scala集合 12 节 | 98分钟

    本章中将带领大家,掌握Scala中数组、List、Set、Map、Tuple、Option等各种不同数据结构的集合在开发过程中的使用。

    收起列表

    • 视频: 17-1 课程目录 (01:06)
    • 视频: 17-2 Scala集合架构 (10:20)
    • 视频: 17-3 不可变数组的定义和使用 (14:24)
    • 视频: 17-4 【重要!必掌握】可变数组的定义和使用 (13:47)
    • 视频: 17-5 不可变和可变Set的定义和使用 (10:47)
    • 视频: 17-6 【重要!必掌握】不可变和可变List的定义和使用 (12:40)
    • 视频: 17-7 List方法的补充 (06:55)
    • 视频: 17-8 【重要!必掌握】Tuple的定义和使用 (13:44)
    • 视频: 17-9 【重要!必掌握】不可变Map的定义和使用及使用注意事项 (08:51)
    • 视频: 17-10 可变Map的定义和使用 (04:29)
    • 图文: 17-11 【面试官来啦】面试讨论题
    • 作业: 17-12 【练练练】阶段作业题
  • 第18章 入门到进阶:如何熟练掌握Scala模式匹配 18 节 | 71分钟

    本章将带领大家,学习Scala中的模式匹配:基本、Array、类型、case class、Option等不同的模式匹配在Scala中的使用,以及Scala中异常处理方式。

    收起列表

    • 视频: 18-1 课程目录 (01:33)
    • 视频: 18-2 隐式转换能为我们带来什么 (03:44)
    • 视频: 18-3 模式匹配概念的理解 (04:11)
    • 视频: 18-4 模式匹配之快速上手 (04:36)
    • 视频: 18-5 模式匹配之内容匹配 (03:56)
    • 视频: 18-6 模式匹配之守卫模式 (04:28)
    • 视频: 18-7 模式匹配之类型匹配 (06:09)
    • 视频: 18-8 模式匹配之Array匹配 (05:50)
    • 视频: 18-9 模式匹配之Tuple匹配 (01:42)
    • 视频: 18-10 模式匹配之List匹配 (04:43)
    • 视频: 18-11 模式匹配之class匹配 (03:32)
    • 视频: 18-12 【重要!必掌握】模式匹配之caseclass匹配 (01:22)
    • 视频: 18-13 模式匹配之结合Spark讲解 (03:18)
    • 视频: 18-14 模式匹配之Scala异常处理 (05:29)
    • 视频: 18-15 初识偏函数 (06:44)
    • 视频: 18-16 【重要!必掌握】偏函数剥丝抽茧迭代 (09:27)
    • 图文: 18-17 【面试官来啦】面试讨论题
    • 作业: 18-18 【练练练】阶段作业题
  • 第19章 入门到进阶:如何熟练掌握Scala函数式编程 19 节 | 108分钟

    本章节是Scala基于函数式编程的核心所在!!!将带领大家,掌握Scala中字符串的高级操作、匿名函数、偏函数以及高阶函数的使用和自定义实现【此处是重点呦】,为后续学习Spark、Flink等打下坚实的基础(Spark、Flink开发过程中的很多算子都是和Scala的非常类似)!...

    收起列表

    • 视频: 19-1 课程目录 (01:45)
    • 视频: 19-2 经典面试题之函数和方法的区别 (09:05)
    • 视频: 19-3 【重要!必掌握】方法与函数的转换 (08:02)
    • 视频: 19-4 【重要!必掌握】高阶函数定义及使用 (08:52)
    • 视频: 19-5 Currying定义及使用 (03:07)
    • 视频: 19-6 【重要!必掌握】经典面试题之自定义实现一些高阶算子 (17:30)
    • 视频: 19-7 高阶算子详解之map (08:37)
    • 视频: 19-8 高阶算子详解之filter&foreach&结合map的综合使用 (08:17)
    • 视频: 19-9 高阶算子详解之flatter&flatMap (06:40)
    • 视频: 19-10 高阶算子详解之reduce&reduceLeft&reduceRight(一定要体会中间过程的理解) (03:23)
    • 视频: 19-11 高阶算子详解之fold&foldLeft&foldRight(一定要体会中间过程的理解) (03:44)
    • 视频: 19-12 高阶算子详解之zip系列 (04:30)
    • 视频: 19-13 高阶算子详解之groupBy (06:30)
    • 视频: 19-14 高阶算子详解之mapValues (01:38)
    • 视频: 19-15 高阶算子详解之排序系列 (09:31)
    • 视频: 19-16 高阶算子详解之算子综合实操 (05:22)
    • 视频: 19-17 注意一个小小的面试题 (01:07)
    • 图文: 19-18 【面试官来啦】面试讨论题
    • 作业: 19-19 【练练练】阶段作业题
  • 第20章 入门到进阶:如何熟练掌握Scala隐式转换 9 节 | 34分钟

    隐式转换是Scala中的亮点所在,也是最难理解的部分!通过本章节,希望带领大家理解隐式转换的意义,掌握Scala中隐式转换、隐式类、隐式参数的使用(后续的Spark、Flink源码及开发中涉及到非常多的隐式转换)。

    收起列表

    • 视频: 20-1 课程目录 (00:55)
    • 视频: 20-2 隐式转换能为我们带来什么 (03:28)
    • 视频: 20-3 【重要!必掌握】 隐式转换函数的定义和使用 (08:28)
    • 视频: 20-4 【重要!必掌握】隐式转换函数的封装 (03:48)
    • 视频: 20-5 隐式类的定义和使用 (07:03)
    • 视频: 20-6 隐式类的封装 (01:53)
    • 视频: 20-7 隐式参数的定义和使用 (08:11)
    • 图文: 20-8 【面试官来啦】面试讨论题
    • 作业: 20-9 【练练练】阶段作业题
  • 第21章 入门到进阶:如何熟练掌握Scala泛型 11 节 | 53分钟

    本章将结合对比Java泛型的使用,系统学习泛型在Scala中的使用。带领大家轻松掌握在Scala中如何使用泛型来为框架的开发提供更强的通用性;如何使用逆变和协变来对已有类型来进行增强和变化【这部分是面试过程中的常考点!!!】 ...

    收起列表

    • 视频: 21-1 课程目录 (01:12)
    • 视频: 21-2 Java泛型基础回顾 (08:00)
    • 视频: 21-3 Java泛型上下限回顾 (04:06)
    • 视频: 21-4 Java中两种不同的排序 (08:48)
    • 视频: 21-5 Scala中泛型类的定义和使用 (06:40)
    • 视频: 21-6 Scala泛型上下限 (05:13)
    • 视频: 21-7 【重要!必掌握】Scala视图界定 (09:21)
    • 视频: 21-8 【重要!必掌握】Scala泛型结合隐式转换的使用 (05:56)
    • 视频: 21-9 Scala中的逆变和协变 (03:07)
    • 图文: 21-10 【面试官来啦】面试讨论题
    • 作业: 21-11 【练练练】阶段作业题
  • 第22章 进阶实战:基于Akka编程模型实战通信项目 13 节 | 62分钟

    Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。本章节将带领大家,掌握基于Akka的编程模型,掌握基于Akka来完成实现Hadoop NameNode和DataNode的通信方式,并能实战模拟Hadoop中NN和DN的通信机制。...

    收起列表

    • 视频: 22-1 课程目录 (00:52)
    • 视频: 22-2 Akka概述 (02:14)
    • 视频: 22-3 剖析Actor模型工作机制 (13:42)
    • 视频: 22-4 需求分析 (04:55)
    • 视频: 22-5 功能实现之启动NN和DN (10:19)
    • 视频: 22-6 功能实现之DN向NN建立连接并发送注册消息 (04:17)
    • 视频: 22-7 功能实现之封装消息 (05:30)
    • 视频: 22-8 功能实现之NN向DN发送注册成功消息 (02:23)
    • 视频: 22-9 功能实现之DN周期性的向NN发送心跳消息 (07:29)
    • 视频: 22-10 功能实现之NN定期检查超时的DN并移除 (07:31)
    • 视频: 22-11 功能实现之单机器多进程方式测试 (02:16)
    • 图文: 22-12 【面试官来啦】面试讨论题
    • 作业: 22-13 【练练练】阶段作业题
  • 第23章 高手养成:Hadoop源码研读,高薪秘笈 25 节 | 167分钟

    本章重点介绍RPC通信机制及编程。将带大家通过阅读Hadoop的核心源码,彻底掌握Hadoop底层的工作机制及原理;掌握Hadoop中RPC的编程模型及开发、Hadoop源码中核心节点的启动流程、MapReduce作业的执行流程及数据分片原理,以及Hadoop源码中数据的读写流程。本章节是面试中的常考点,更是我们必须要拿下的得分项。 ...

    收起列表

    • 视频: 23-1 课程目录 (01:21)
    • 视频: 23-2 初识RPC (05:33)
    • 视频: 23-3 自定义RPC协议实现 (11:57)
    • 视频: 23-4 如何以正确的姿势阅读源码&NN职责 (14:55)
    • 视频: 23-5 NameNode入口点函数 (03:46)
    • 视频: 23-6 NameNode核心成员变量初始化 (07:41)
    • 视频: 23-7 NameNodeHttpServer创建及启动 (03:32)
    • 视频: 23-8 加载命名空间 (03:43)
    • 视频: 23-9 创建NameNodeRpcServer (02:52)
    • 视频: 23-10 NameNode启动流程梳理 (03:34)
    • 视频: 23-11 NameNode资源检查 (04:27)
    • 视频: 23-12 NameNode心跳检测 (03:30)
    • 视频: 23-13 NameNode安全模式 (04:49)
    • 视频: 23-14 DataNode启动宏观流程梳理 (08:43)
    • 视频: 23-15 startDataNode方法梳理 (07:03)
    • 视频: 23-16 初始化DataXceiverServer&DatanodeHttpServer&RPCServer (04:16)
    • 视频: 23-17 DataNode向NameNode注册 (10:29)
    • 视频: 23-18 DataNode和NameNode的心跳处理 (07:20)
    • 视频: 23-19 MR作业提交流程源码分析 (15:47)
    • 视频: 23-20 MR作业提交流程小结 (08:23)
    • 视频: 23-21 MR作业提交流程之切片源码分析 (15:44)
    • 视频: 23-22 MapTask&ReduceTask执行流程源码分析 (08:52)
    • 视频: 23-23 提交作业到YARN上执行分析 (08:38)
    • 图文: 23-24 【面试官来啦】面试讨论题
    • 作业: 23-25 【练练练】阶段作业题
  • 第24章 高手养成:Hive源码研读,高薪秘笈 19 节 | 107分钟

    Hive是一个将Hive QL翻译成底层分布式作业执行的框架,那么从Hive QL发起后,中间经历了哪些过程?是如何将Hive QL翻译成分布式作业并执行的呢?我们将在本章节中带领大家阅读Hive的源码来体会整个过程,本章节能快速提升对Hive的认知,掌握如何进行Debug Hive源码一步步的跟踪底层实现,并能轻松应付面试过程中关于Hiv...

    收起列表

    • 视频: 24-1 课程目录 (01:35)
    • 视频: 24-2 源码分析准备工作 (09:36)
    • 视频: 24-3 hiveconf的用法 (06:00)
    • 视频: 24-4 hivevar的用法 (03:50)
    • 视频: 24-5 !的用法 (01:20)
    • 视频: 24-6 寻找源码入口点 (07:01)
    • 视频: 24-7 CliDriver的run方法详解 (07:38)
    • 视频: 24-8 prompt的使用 (03:52)
    • 视频: 24-9 executeDriver方法剖析 (07:35)
    • 视频: 24-10 processCmd方法剖析 (05:44)
    • 视频: 24-11 processLocalCmd方法剖析 (08:25)
    • 视频: 24-12 SQL执行流程剖析 (07:50)
    • 视频: 24-13 逻辑执行计划&物理执行计划剖析 (13:59)
    • 视频: 24-14 compile方法剖析 (06:37)
    • 视频: 24-15 analyze方法剖析 (04:21)
    • 视频: 24-16 execute方法剖析 (05:34)
    • 视频: 24-17 Hive源码分析总结 (05:12)
    • 图文: 24-18 【面试官来啦】面试讨论题
    • 作业: 24-19 【练练练】阶段作业题
  • 第25章 综合实战:基于Hadoop全流程实战离线数仓项目 45 节 | 384分钟

    本章节将系统讲解基于Hadoop的大数据离线数仓项目,通过四个业务帮助大家,从架构设计、数据采集、数据处理、可视化、调优、拓展思路的角度掌握框架的综合使用。课程中,将帮助大家,掌握通用的几种大数据离线处理架构,以达到举一反三的应用;掌握如何基于MapReduce实现数据清洗、数据质量;掌握基于Hive QL掌握各种业务...

    收起列表

    • 视频: 25-1 课程目录 (02:07)
    • 视频: 25-2 大数据离线处理架构分析(上) (13:41)
    • 视频: 25-3 大数据离线处理架构分析(下) (09:09)
    • 视频: 25-4 CDN日志及指标了解 (11:09)
    • 视频: 25-5 日志类定义 (11:31)
    • 视频: 25-6 日志解析 (17:05)
    • 视频: 25-7 使用MR完成数据清洗功能 (15:51)
    • 视频: 25-8 数据质量指标统计 (05:57)
    • 视频: 25-9 数据清洗作业提交到YARN上运行 (07:05)
    • 视频: 25-10 创建Hive表并加载数据到表中 (06:32)
    • 视频: 25-11 维度指标分析 (05:08)
    • 视频: 25-12 通过JDBC查询Hive中的统计结果 (05:10)
    • 视频: 25-13 现在的处理方式引出的问题 (04:44)
    • 视频: 25-14 【重要】数仓分层(上) (15:36)
    • 视频: 25-15 【重要】数仓分层(下) (11:01)
    • 视频: 25-16 脚本封装etl及加载到hive表 (15:01)
    • 视频: 25-17 ODS层改进方案 (06:16)
    • 视频: 25-18 shell脚本补充 (04:50)
    • 视频: 25-19 调优之压缩能为我们带来什么 (12:17)
    • 视频: 25-20 调优之压缩如何选型 (13:57)
    • 视频: 25-21 调优之压缩的代码实现方式 (11:41)
    • 视频: 25-22 调优之压缩在MR中的使用 (13:15)
    • 视频: 25-23 调优之压缩在Hive中的使用 (08:01)
    • 视频: 25-24 调优之存储格式的使用(TextFile&RCFile) (11:41)
    • 视频: 25-25 调优之存储格式的使用(ORC&Parquet) (06:51)
    • 视频: 25-26 DWD层创建 (04:28)
    • 视频: 25-27 DWS&ADS层统计 (07:21)
    • 视频: 25-28 指标补充 (01:56)
    • 视频: 25-29 业务数据构建数仓架构 (08:37)
    • 视频: 25-30 项目背景 (08:54)
    • 视频: 25-31 从产品角度梳理业务流转 (16:51)
    • 视频: 25-32 统计指标详解 (18:00)
    • 视频: 25-33 DataV使用 (07:56)
    • 视频: 25-34 ODS层实现 (08:29)
    • 视频: 25-35 DWD层实现 (06:02)
    • 视频: 25-36 ADS之学校使用情况 (07:06)
    • 视频: 25-37 ADS之全区平均时长分析- (04:55)
    • 视频: 25-38 ADS之家长反馈情况- (04:41)
    • 视频: 25-39 项目背景及相关指标 (06:06)
    • 视频: 25-40 项目表结构 (02:55)
    • 视频: 25-41 防控大屏效果展示 (02:38)
    • 视频: 25-42 健康码情况统计 (09:53)
    • 视频: 25-43 红黄绿码数情况统计 (02:34)
    • 视频: 25-44 完成率情况统计 (05:40)
    • 视频: 25-45 URL请求在DataV中的使用 (03:19)
本课程已完结

试看

全部试看小节



讲师

Michael_PK 全栈工程师

十二年互联网公司一线研发经验,担任大数据技术专家。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。

讲师其他课程

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
意见反馈 帮助中心 APP下载
官方微信

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题