SRE 急速入门，开辟你的职业蓝海_实战课程

本章介绍：

这一章节将初识SRE，揭开SRE（Site Reliability Engineering，网站可靠性工程）的神秘面纱。助您了解到SRE岗位的薪资水平现状和未来发展前景。本章介绍了课程教学目标和模块化的章节设计，您可以了解到这门课程的学习路径，为后续学习打下一个坚实基础。

第1章 SRE入行第一课

2 节｜15分钟

展开

视频：

1-1 跟大牛学大厂经验，轻松开启职业新篇章

试看

10:04
视频：

1-2 就业新蓝海：可靠性工程师前景展望

04:43

本章介绍：

本章节将引领您深入站点可靠性工程的基础知识，从对比运维和DevOps的角度出发，揭示SRE的核心价值和独特定位。讲解了SRE的方法论，通用技术手段和可靠性设计的原则，帮助您掌握如何使系统具备高可靠性。最后，从SRE的视角分析分层架构，让您了解如何构建更加稳固和可扩展的系统。

第2章大厂SRE秘籍：颠覆传统运维的速通指南

6 节｜51分钟

收起

本章介绍：

本章聚焦云原生技术的核心要素，深入剖析微服务架构如何重塑应用开发模式，以及容器化技术如何成为应用部署与管理的革命性工具。我们还将带您领略云上网络的广阔天地，探讨其构建与运作机制。通过实操演练，您将学会如何利用Docker快速搭建nginx集群，并进一步利用Kubernetes实现nginx集群的可伸缩部署，为您的云原生之旅增添实战经验。

第3章拥抱云原生：开启稳定高效的云上运维新篇章

8 节｜58分钟

收起

视频：

3-1 微服务：现代化应用的分身术

06:31
视频：

3-2 从可靠性工程师视角设计软件架构

07:31
视频：

3-3 云原生：构筑未来数字世界的底座

04:08
视频：

3-4 容器引擎和容器编排：封装和运输任何应用的强大引擎

05:14
视频：

3-5 云上网络

06:12
视频：

3-6 docker基础命令实操

10:14
视频：

3-7 容器化实操：基于k8s部署可伸缩的在线服务集群

13:17
视频：

3-8 本章总结

04:04

本章介绍：

本章展开讲解可观测性的核心概念，以及如何度量系统可用性并保障SLA。在面对庞大复杂的系统时，通过APM工具与平台来厘清系统脉络。本章通过实战演练，您将学会搭建基于SkyWalking的全链路跟踪平台，掌握Prometheus的技术架构和使用技巧。此外，本章还将指导您实战搭建基于阿里云SLS日志服务的nginx网关层监控报警系统，为系统稳定性保驾护航。

第4章久经实战的武器库：大厂SRE如何化解故障无法感知、难于定位的系统难题

10 节｜96分钟

展开

视频：

4-1 快速入门APM可观测

试看

13:12
视频：

4-2 如何评估系统的可用性和服务质量

12:09
视频：

4-3 厘清庞大系统的脉络，APM有哪些工具与平台

07:09
视频：

4-4 手动搭建和微服务项目应用skywalking

11:56
视频：

4-5 详解promethues架构设计

04:57
视频：

4-6 promethues+grafana监控golang应用和机器性能

12:44
视频：

4-7 全面掌握promethues的exporter

08:00
视频：

4-8 全面掌握promethues的alertmanager

03:38
视频：

4-9 实战搭建基于阿里云SLS日志服务的nginx网关层监控报警

16:32
视频：

4-10 本章总结

05:12

本章介绍：

本章节讲解AIOps（人工智能运维）的核心概念及其能力体系，首先，助您了解AIOps如何利用大数据和机器学习技术来优化工作流程。接着，讲解了AIOps的能力体系和技术路线，包括故障发现、异常检测和根因分析等关键功能。此外，本章介绍了阿里云的SREWorks和腾讯的织云Metis，如何支持企业实现智能运维。展示其在智能监控、决策支持和运维效率提升方面的实践。通过这些案例，您能更好地理解AIOps在现代运维中的重要性及其应用前景。

第5章 SRE新视角：AIOps的探索与实践

5 节｜45分钟

展开

视频：

5-1 什么是AIOps

10:27
视频：

5-2 AIOps之故障发现

13:47
视频：

5-3 SREWorks：阿里云的一站式DevOps解决方案

07:37
视频：

5-4 织云 Metis：腾讯怎么做智能运维metis

08:42
视频：

5-5 本章总结

04:04

本章介绍：

本章节深入讲解了故障预防的关键知识，揭示了在应用迭代中容易被忽视的故障前的工作。包括了应对变更，CI/CD的最佳实践，如何构建有效的容灾策略，安全性与合规性设计，如何通过可观测建设来提升风险管理能力，应急响应流程设计，反脆弱性原则，系统压测，容量规划与预测，过载设计，oncall机制，混沌工程和故障演练，都将被详细阐述。本章旨在为同学提供全面立体的系统故障预防策略，确保系统的稳定性和可靠性。

第6章未雨绸缪：在故障前打造多维防护网，拒故障于千里之外

13 节｜142分钟

展开

视频：

6-1 本章介绍：了解容易被忽视的故障前工作

07:19
视频：

6-2 持续集成、持续交付与持续部署：构建代码审查、质量保证、分级发布的自动化通道-

16:05
视频：

6-3 容灾：冗余设计与容错处理

16:26
视频：

6-4 安全合规：必要的信息保护与数据安全

18:07
视频：

6-5 可观测建设：风险识别、分析、评估和告警

18:38
视频：

6-6 故障预案：应急响应流程设计

09:46
视频：

6-7 反脆弱：环境、产品和人的关系

05:47
视频：

6-8 系统压测：了解系统瓶颈

09:33
视频：

6-9 防患于未然：容量动态规划与预测

09:24
视频：

6-10 系统过载的预防设计

05:58
视频：

6-11 如何合理地建设7✖️24H的oncall机制

09:35
视频：

6-12 混沌工程

09:29
视频：

6-13 本章总结

05:34

本章介绍：

本章讲解了在故障应对中，应急响应流程机制的建设和sre需要承担的关键任务。当故障突然发生，值班同学往往会猝不及防，一头雾水。而棘手的连锁故障更是对系统稳定性的巨大挑战。面对紧急故障，本章讲解了如何建立高效的应急响应机制，确保在第一时间发现并排查定位故障，协同作战。以及，如何按照预案处理各类原因导致的紧急事故，最大限度减少故障带来的损失，快速恢复系统的业务连续性。

第7章有条不紊：突破传统运维，紧密贴近业务，SRE在故障中的关键角色与应对策略

4 节｜40分钟

展开

视频：

7-1 争分夺秒的故障中

10:08
视频：

7-2 故障响应：抓告警，定位，预案执行

10:16
视频：

7-3 各种原因产生故障的应对策略

07:50
视频：

7-4 棘手的连锁故障

11:28

本章介绍：

本章讲解了当系统出现故障时，仅仅临时解决问题是远远不够的。通过复盘，我们能够挖掘故障背后的根本原因，避免类似问题的再次发生。为了提升复盘带来的积极影响，本章讲解了如何做高质量的复盘。

第8章前事不忘，后事之师： SRE从复盘中收获成长力量，开拓创新迈向卓越

3 节｜28分钟

展开

视频：

8-1 失败不是成功之母，复盘才是

16:28
视频：

8-2 复盘模板设计和解析

06:13
视频：

8-3 在沉淀中成长，在实践中改进

05:13

本章介绍：

本章通过分析近年比较有代表性的一些大型互联网事故复盘报告，我们可以一窥在复杂的技术环境和高压力的业务场景下，大厂们是如何应对突发故障的。从故障的发生到响应、处理以及后续的复盘改进，每一个环节都蕴含着宝贵的经验教训。这些案例为我们提供了实际的参考，帮助我们更好地理解 SRE 的重要性和挑战，同时也为我们在面对类似情况时提供了应对策略和方法。

第9章 SRE智慧之鉴：深度剖析近期大型互联网应用故障案例

4 节｜37分钟

展开

视频：

9-1 它山之石可以攻玉，盘点近期几大互联网故障复盘报告

13:18
视频：

9-2 2024年4月8日腾讯云控制台故障

06:24
视频：

9-3 2023年11月27日滴滴全平台服务中断故障

09:32
视频：

9-4 2024年8月19日网易网站+云音乐服务中断故障

07:10

本章介绍：

在团队中，文化的力量不容小觑。本章讲解了如何打造一种以可靠性为核心的独特文化。可靠性文化的建立对于确保系统的稳定运行、降低故障风险以及提升用户体验至关重要。这种文化强调团队合作、持续学习、主动预防和快速响应，鼓励团队成员积极承担责任，不断追求卓越，以高度的敬业精神和专业素养来保障系统的可靠性。

第10章 SRE底蕴：团队文化共筑系统可靠性长城

5 节｜38分钟

展开

视频：

10-1 SRE可靠性文化的建立

03:08
视频：

10-2 oncall值日生的一天

05:32
视频：

10-3 平衡oncall和日常工作

08:10
视频：

10-4 10.4 新人培养和团队文化

11:22
视频：

10-5 跨职能协作与沟通

09:07

本章介绍：

本章聚焦求职指导与课程总结，为求职者提供了宝贵的指引。在求职指导部分，深入剖析了当前就业市场的形势，为求职者明确职业方向提供助力。从简历撰写到面试技巧，涵盖了求职过程中的各个关键环节，帮助求职者充分展现自身优势，提高求职成功率。课程总结部分则系统地回顾了整个学习历程，梳理重点知识与技能，让学习者能够巩固所学，更好地将其运用到实际求职与工作中。

第11章求职指导与课程总结

2 节｜25分钟

展开

视频：

11-1 SRE求职面试辅导

18:37
视频：

11-2 课程总结

06:13

SRE 急速入门，开辟你的职业蓝海

大厂 SRE 实战经验凝练，更全面的知识体系，新手听得懂，老手有启发

课程预览

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

热搜

最近搜索清空

课程预览

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

本章介绍：

学习咨询