全部试看小节
本章会对这门课程进行说明并进行学习方法介绍。
Redis是目前最火爆的内存数据库之一,通过在内存中读写数据,大大提高了读写速度。本章将从Redis特性、应用场景出发,到Redis的基础命令,再到Redis的常用数据类型实操,最后通过Java API来操作Redis,为后续实时处理项目打下坚实的基础...
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。本章将从HBase是什么、有哪些特点出发,到HBase环境部署,到HBase的数据模型,到HBase的操作(命令行&API),为后续离线处理项目的数据存储以及查询打下坚实的基础。...
本章节讲解基于Spark和HBase的离线综合项目实战,从多个框架的整合出发,到使用Spark进行ETL处理然后数据落地到HBase中涉及到的传参、HBase Rowkey的设计,再到性能的初步调优,最后使用Spark整合HBase进行数据的统计分析。本章是基于Spark进行离线处理的重点,务必掌握。...
本章节将基于前面一个章节的功能实现进行进一步的优化,如何将在需求功能实现的基础之上,进行调优,使得在生产上的执行效率更高。本章将是提升自身综合实力的关键部分,务必掌握。
本章节讲解基于Spark和Redis的实时综合项目实战,从Spark Streaming整合Kafka对接出发,如何实现需求的功能以及如何对代码进行重构使得执行效率更好,掌握Redis在项目实战中的数据类型选型,以及如何将SparkStreaming处理完的数据写入到Redis中去。...
Alluxio是一个以内存为中心的虚拟分布式存储系统,统一数据访问和桥梁的计算框架和底层存储系统。应用程序只需要Alluxio就可以把访问存储在任何底层存储系统的数据连接。本章节将从Alluxio为我们带来的好处出发,再到Alluxio如何整合Hadoop以及Spark进行实操,并分享一些Alluxio在大公司中的使用案例。...
本章节将从Spark在生产上的最佳实践出发,和大家分享Spark的常用优化策略。
了解Pipeline的处理方法,基于Spark外部数据源定制Spark ETL框架的思路及使用
Spark3是一个里程碑版的版本,其中包含很多新的特性,本次直播中主要带大家知晓新特性有哪些,以及讲解动态分区裁剪、外部数据源V2、自适应查询执行等相关知识。
本章将向大家介绍,如何基于Spark SQL提供的的外部数据源API,自定义实现HBase表数据的读取操作,从而,快速便捷的将HBase数据转换成DF/DS,为后续Spark的处理提供基础操作。
全部试看小节
十二年互联网公司一线研发经验,担任大数据技术专家。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题