首页 实战 Spark Streaming实时流处理项目实战
收藏

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming打造通用流处理平台

Spark Streaming实时流处理项目实战

难度 中级 时长 16小时 学习人数 1404 综合评分 9.88

本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、及当前非常火爆的Spark Streaming打造实时流处理项目实战,让你掌握实时处理的整套处理流程,达到大数据中级研发工程师的水平!

Michael_PK
讲师

资深大数据架构师

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看

基于Flume+Kafka+Spark Streaming打造企业大数据流处理平台

流行框架打造通用平台,直接应用于企业项目

处理流程剖析

日志产生器

使用Flume采集日志

将Flume收集到的数据输出到Kafka

Spark Streaming消费Kafka的数据进行统计

Spark Streaming如何高效的读写数据到Hbase

本地测试和生产环境使用的拓展

Java开发Spark要点拓展

炫酷的可视化效果

SpringBoot构建web项目,Echarts和DataV强强联手,让你体验看得见的大数据

对这门课感兴趣,但大数据基础薄弱怎么办

1、缺乏Scala基础,直线跳转《Scala程序设计-基础篇》

2、缺乏Hadoop基础,直线跳转《10小时入门大数据》

原理+场景,让你真正明白Spark Streaming

全面了解Spark Streaming的特性及场景应用,完成各个不同维度的统计分析

日志收集框架Flume

Flume架构及核心组件

Flume&JDK环境部署

Flume实战案例

分布式消息队列Kafka

Kafka架构及核心概念 / Zookeeper安装

Kafka单、多broker部署及使用

Kafka Producer Java API编程

Kafka Consumer Java API编程

1.入门

Spark Streaming概述及应用场景

Spark Streaming集成Spark生态系统使用

从词频统计功能着手入门Spark Streaming

Spark Streaming工作原理(粗/细粒度)

2.核心

StreamingContext/Dstream

Input DStreams和Receivers

Transformation和Output Operations

Spark Streaming处理socket/文件系统数据

3.进阶

updateStateByKey算子的使用

统计结果写入到MySQL数据库

窗口函数的使用、黑名单过滤

Spark Streaming整合Spark SQL操作

Streaming整合Flume

Push和Pull两种方式介绍

与Flume Agent配置

本地、服务器环境联调

整合Spark Streaming应用开发

Streaming整合Kafka

版本选择详解

Receiver和Direct两种方式

本地、服务器环境联调

整合Spark Streaming应用开发及测试