首页 实战 Spark进阶 大数据离线与实时项目实战
收藏

Spark进阶 大数据离线与实时项目实战

整合大数据生态圈多个框架(Spark/Hbase/Redis/Hadoop) ,Spark大技术栈的企业级应用

Spark进阶 大数据离线与实时项目实战

¥399.00
难度 中级 时长 16小时 学习人数 690 综合评分 9.96

本课程整合Redis和HBase打造以Spark技术栈为核心的离线处理项目以及实时处理项目,以功能实现为基础,通过调优及重构功能实现,达到企业级生产水平。课程最后讲解Alluxio整合Hadoop和Spark的使用,拓展同学们的视野。

Michael_PK
讲师

资深大数据架构师

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看

Spark进阶干货:从使用到调优,整合多个大数据生态圈中的框架

企业应用中Spark不可能单兵作战,掌握Spark与多个框架的结合运用才能真正应对实际需求

  • Spark

  • HBase

  • Hadoop

  • Redis

  • Kafka

  • Alluxio

  • 资深Spark工程师亲授
    内容结合实际工作经验

  • 三分基础,七分实战
    带你在项目中学习

  • 实现功能并调优重构
    达到企业生产标准

实战Spark“离线”和“实时”两大应用场景

课程整体为一个大项目,以慕课网用户行为日志展现“离线场景”;以订单数据的统计分析展现“实时场景”

Spark整合HBase打造大数据离线项目实战

  • 项目概述:

    使用Spark对慕课网用户行为日志进行ETL处理,处理
    结果落地在HBase,并使用Spark对接HBase存储的日
    志数据进行统计分析

  • 实现功能:

    各地区访问量统计分析
    客户端访问分布情况统计分析

  • 解决的问题:

    离线通用处理架构
    快整合Github已有的资源到项目中
    Spark整合HBase数据使用DataFrame进行读写操作
    通过shell脚本动态传递参数进行Spark作业的提交
    Spark统计结果以正确的姿势写入到MySQL

  • 性能调优:

    Spark中Cache在项目中的使用
    禁用HBase的WAL机制
    使用Spark直接生成HFile文件高效的数据落地到HBase

Spark整合Kafka&Redis打造大数据实时项目实战

  • 项目概述:

    使用Spark Streaming和Redis的整合完成慕课网订单
    数据的实时统计分析

  • 实现功能:

    实时统计每天的总订单数(此处为模拟数据)
    实时统计每天的总订单金额(此处为模拟数据)

  • 解决的问题:

    实时通用处理架构
    Kafka整合Spark Streaming的使用
    根据不同的业务进行Redis数据类型的选择

  • 性能调优:

    项目参数统一配置管理
    如何将多个业务统计分析统计进行抽象提取处理、达到
    共享数据的目的,节省计算资源的开销
    offset管理的思路

实战项目架构:逻辑分层清晰,业务流程完整

若你基础薄弱,为你推荐:Spark入门到进阶学习路径

讲师已在慕课出品了三门Spark课程,学习路径完整,你可根据自身水平选择

本课程

慕课网精品课程 为你提供超值服务

  • 技术版本维护

    讲师长期维护项目,不会让项目由于
    技术版本更新而无法运行。

  • Git代码仓库

    提供高性能远端Git仓库,方便开发
    者随时随地参与项目。

  • 课程源代码

    免费提供课程源码,课程源码保持长
    期更新维护。

  • 学习社群

    课程专属学习交流群,与优秀的人共
    同进步:互相帮助,共同分享。


  • 专题讨论

    定期组织技术话题讨论,疑难问题/
    热点技术/职业规划/高效学习等热点
    观点等你参与。

  • 问答社区

    遇到困难随时提问,讲师亲自
    答疑解惑。

  • 课后练习

    定制每章课后练习,技能知识
    牢牢掌握。

  • 教辅材料

    辅助视频内容,扩展知识面,让你更
    好,更深的理解知识。

适合人群

想转型或者从事大数据行业的小伙伴

技术储备要求

Spark进阶课程,不是从零基础开始讲解,需要有一定基础
熟悉Scala、Java SE基本语法
熟悉Hadoop基本使用、Linux基本命令
了解Spark SQL和Streaming的基本使用

环境参数

  • Hadoop生态 CDH(5.15.1)
  • Spark 2.4
  • Redis 5.0.5
  • Linux版本 CentOS(7)
  • 开发工具 IDEA
提问
数据加载中...
意见反馈 帮助中心 APP下载
官方微信

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题