全部试看小节
大数据平台不是一个单一的项目,而是多个大数据组件融合而成的一个平台,是海量数据处理的全流程工厂。本章我们会站在大数据工程师的角度认识大数据平台,了解大数据平台的核心内容,逐步构建大数据平台的认知体系。
大数据平台一般都基于Hadoop集群进行搭建,所以对于大数据集群的部署是搭建大数据平台的第一步。本章通过对大数据组件安装逻辑进行抽象、设计,实战开发Hadoop集群自动部署的项目,支持Hadoop集群的自动部署,并可以扩展其他大数据组件。...
监控系统是大数据平台的标配,监控的目的在于能够捕获异常指标预防大数据集群出现问题,以及发现问题后及时处理,保障集群稳定。
分析HDFS元数据,结合多种策略推进HDFS数据治理,提高HDFS存储服务的稳定性和空间利用率。
计算资源总是有限的,既要利用Yarn队列划分能力进行资源划分,又需要对用户的任务进行分析优化,提高集群资源的利用率。
对于企业侧而言,完成Hadoop集群创建之后,还需要将数据管理好、将集群治理好。本章会对前面课程HDFS数据治理及YARN计算治理的内容进行工具化,实现Hadoop集群的概览、治理和任务分析,解决企业侧大数据集群管理的痛点。
平台底层引擎的运维管理人员需要具备对于Hadoop代码优化、二次开发的能力,提高核心竞争力。
Hadoop的架构、读写流程是面试所重点关注的方向,Hadoop作为我们接触到的有代表性的分布式系统,可以帮助我们更好的认识分布式原理。
找数难、取数难、用数难一直是困扰企业大数据平台发展的问题,本章我们通过建设统一数据视图项目帮助数据平台解决“有哪些数据”、“数据长什么样子”、“如何找到我需要的数据”、“如何使用数据”和“谁在用这些数据”问题。...
工欲善其事必先利其器,大数据领域的计算引擎就是我们处理海量数据的“利器”,也是我们必备的技能之一。
数据管道(数据采集服务)是业务数据库和大数据平台之间的桥梁,通过数据管道可以将业务数据快速的同步到大数据集群。如何支持多类业务数据源、支持多种同步方式和同步场景是数据管道系统设计的核心。
调度系统是大数据平台的“大脑”,一个功能完备的调度系统支持每天数十万的任务调度执行。支持多种触发模式、支持多种任务类型、灵活配置多类参数、稳定且低延时是任务调度系统必备的核心能力。
大数据开发平台是用户使用大数据平台的入口,集文件管理、数据查询、任务开发、任务测试等能力于一体。一个好的数据开发平台应该与大数据平台能力层各个组件进行打通。
SQL 是编程领域最流行的语言,Apache Calcite为各类常用大数据引擎提供SQL解析或优化的能力,比如HiveQL的优化,Flink SQL的解析和优化等等,本章通过学习Calcite,深入了解SQL的解析和优化过程。
正是由于大数据计算引擎种类繁多,导致各类引擎语法差异大,用户门槛高。在企业侧一般都会通过构建统一查询服务中间件来统一数据查询入口,支持多集群、多引擎的数据查询路由分发。本章会从0到1实战统一数据查询分发中间件项目,解决企业侧真实大数据平台需求。...
数据仓库是大数据平台建设过程中的核心内容,作为平台开发人员,我们对于数据仓库的一些核心概念、架构、建模方式等内容也需要了解,扩充知识面,丰富技术广度。
工作最终还是要面向Boss的,数据最终还是要产生价值的。企业侧大数据平台典型的应用场景就是通过数据分析来帮助用户分析数据、挖掘数据的价值,并将数据描绘成可视化图表,辅助你的Boss进行对比验证和决策。本章会基于我们搭建的大数据平台,实现淘宝母婴数据的录入、检索、分析和可视化的全流程。...
ClickHouse是近年来备受关注的开源列式数据库,是标签系统建设的主流方案。作为我们构建标签平台的存储引擎,需要我们了解ClickHouse的基础使用和核心原理。
数据标签平台是也是大数据的典型应用,要实现用户画像、推荐系统等能力最基础的就是建设一个优秀的标签体系。本章基于ClickHouse方案实战一个较为通用的大数据标签项目,并结合我们搭建的大数据平台能力,实现用户数据的录入、标签生成、标签检索的全流程。...
全部试看小节
八年大厂数据架构和研发经验,专注于大数据平台研发和企业级数据治理。基于Hadoop生态完成多个企业级大数据平台的建设落地,对集群管理、数仓建设、数据计算、数据治理等方向有较深刻的理解。
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题