实战 \以慕课网日志分析为例 进入大数据 Spark SQL 的世界

以慕课网日志分析为例 进入大数据 Spark SQL 的世界

难度 中级
时长 18小时
学习人数 527
9.9分
¥ 366.00

以慕课网日志分析为例 进入大数据 Spark SQL 的世界

以慕课网日志分析为例 进入大数据 Spark SQL 的世界
本课程以“慕课网日志分析”这一大数据应用案例为主线,使用慕课网真实日志,以目前主流的、最新的Spark稳定版2.1.x为基础,依次介绍相关的大数据技术:Hadoop、Hive、Spark SQL,涉及数据清洗、统计存储、处理入库以及数据可视化(Echarts、Zeppelin),最终会形成一个完整的大数据项目。

快速“变身”大数据攻城狮, 你的不二之选

一个有野心的攻城狮,只要你熟悉Linux、SQL和一门编程语言
就可以轻松华丽转型大数据攻城狮,“钱”途无限

以真实的“慕课网日志”这一应用案例为主线进行分析

采用最新的Spark稳定版2.1.x 为基础,依次介绍大数据热门技术:Hadoop、Hive、Sprak SQL

涉及数据清洗,统计存储,处理入库以及数据可视化(ECharts、Zeppelin)

最终形成一个完整的大数据项目

玩真的,用慕课网真实日志带你玩转大数据

Hadoop

HDFS

MapReduce

YARN

Hive

Hive在Hadoop生态系统的位置

Hive体系架构

Hive部署架构(测试环境、生产环境)

从Hive平滑过渡到Spark SQL

Spark 2.1.X

Spark生态圈

零基础搭建Spark环境

Spark和Hadoop的协作性

Spark开发语言及运行模式

Spark SQL

DataFrame & DataSet

External DataSource API

慕课网日志分析项目实战

Spark调优

Spark SQL慕课网日志分析

慕课网真实日志,应用Spark SQL轻松完成各个不同维度的统计分析,掌握大数据离线分析处理流程

大数据实战-Spark SQL慕课网日志分析

需求分析

剖析用户行为日志

离线数据处理架构

imooc日志内容构成

数据清洗

日志解析

IP地址解析

存储到目标地址

数据统计处理和入库

Scala操作MySQL工具类开发

功能实现

结果写到MySQL

数据可视化

ECharts饼图静态数据展示

ECharts饼图动态数据展示

Zeppelin统计结果展示

性能调优

Spark on YARN基础

存储/压缩格式的选择

代码/参数的优化

实战中深入体会Spark SQL特性

集成性好在Spark程序中无缝混合SQL、API查询

统一的数据访问以类似的方式连接到各种不同的外部数据源

兼容Hive已有Hive查询语句不用修改

支持标准连接通过JDBC、ODBC访问

Catalyst引擎底层有Catalyst进行自动优化

适合数据类型处理结构化与半结构化数据

学员专享增值服务

问答专区

讲师集中答疑

关于课程的问题都可在问答区随时提问,讲师会进行集中答疑

源码开放

整套代码下载

课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化

开发环境

免费提供

可用开发环境OOTB,也有纯净版环境,助你快速高效进入开发

适合人群及技术储备要求

有编程基础,想转行投身大数据行业的工程师;

有一定Hadoop/Spark基础的,但想快速提升自身能力的小伙伴;

选择本课程最合适不过了,一起开启大数据学习之旅吧!

学前必备技术

熟悉常用Linux命令、基本SQL的使用

熟悉编程语言Java/Scala/Python的任意一门均可

没有Scala基础的学员,可以先学习主站的《Scala程序设计-基础篇》课程

大数据实战-Spark SQL慕课网日志分析

资深大数据架构师

Michael__PK

四年互联网大数据研发经验,五年Java EE研发经验。近年来主要从事Hadoop生态圈和Spark生态圈技术的研发和落地。参与过Spark论文的中文翻译工作,且带队完成北京、上海等省份的移动大数据平台建设

乐于将自己多年的工作经验和对技术的独特认知分享给大家,在慕课网已推出《轻松加愉快学习SpringData》免费课程,深受学员的喜欢。老师注重以实战驱动教学,全程代码驱动,拒绝纯理论;会把晦涩难懂的理论以通俗易懂的方式,并辅以案例结合源码分析进行讲解,让学员能够知其然并知其所以然;做到让每位学员真正把知识学到自己手里

大数据的时代,有这样负责任的老师,你还担心学不会?一起学习大数据吧!

环境参数

  • Linux版本 CentOS 6.4
  • Hadoop版本 CDH (hadoop-2.6.0-cdh5.7.0)
  • Hive版本 hive-1.1.0-cdh5.7.0
  • Scala版本 2.11.8
  • Spark版本 spark-2.1.0

万事俱备 只等你来

  • 小玲子zhl

    以前看spark官网,没有思考那么多,老师讲的让我恍然大悟,很好,学到了很多。期待老师别的课程

  • qq_不运动就会变忧郁_0

    不论什么样的有关项目的问题,每次发布上去之后,老师都回复得很快,喜欢~~

  • BaconNUDT

    这老师,绝了!!讲得特别清楚,最重要的一点是什么,老师带着大家一起读源码、读文档,让大家不在对这些感到陌生。老师讲课也挺有意思的,value丝、table丝,各种丝~,期待老师出streaming和ML的课程。

查看全部41条用户评价
提问
数据加载中...
意见反馈 常见问题 APP下载
官方微信