SRE 急速入门,开辟你的职业蓝海

大厂 SRE 实战经验凝练,更全面的知识体系,新手听得懂,老手有启发

已完结
|
难度:入门
|
时长:共 10 小时
69
原价¥99.00
上新特惠
距离活动结束
立即购买
加购物车
  • 系统掌握 SRE 实用核心技能
  • 掌握可复用大厂服务保障方案
  • 提升快速定位与故障处理能力
  • 提升容量规划与性能优化技巧
  • 倍增全局系统安全可靠性思维
  • 具备AIOps服务保障落地经验
试看本节课 10:04
试看本节课 13:12
1-1 跟大牛学大厂经验,轻松开启职业新篇章
4-1 快速入门APM可观测

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
SRE,网站可靠性工程师,相较于传统运维,SRE 更注重用软件工程的思维来提高服务的性能、稳定性和扩展性,薪资更高,职业空间更大,是毕业生求职,研发、测试、运维工程师突破职场困境的蓝海岗位。本课程由资深 SRE 专家亲授,以故障事件管理为核心,带你系统构建实用知识体系;收获大厂级可复用的服务保障方案【覆盖监控、容量规划、故障处理、自动化运维及性能优化等关键领域】;打通硬技能的同时,更倍增全局可靠性思维的软技能 ,助你快人一步驶入提升核心竞争力的快车道。

本章介绍:

这一章节将初识SRE,揭开SRE(Site Reliability Engineering,网站可靠性工程)的神秘面纱。助您了解到SRE岗位的薪资水平现状和未来发展前景。 本章介绍了课程教学目标和模块化的章节设计,您可以了解到这门课程的学习路径,为后续学习打下一个坚实基础。

第1章 SRE入行第一课
2 节|15分钟
展开
  • 视频:
    1-1 跟大牛学大厂经验,轻松开启职业新篇章
    试看
    10:04
  • 视频:
    1-2 就业新蓝海:可靠性工程师前景展望
    04:43

本章介绍:

本章节将引领您深入站点可靠性工程的基础知识,从对比运维和DevOps的角度出发,揭示SRE的核心价值和独特定位。讲解了SRE的方法论,通用技术手段和可靠性设计的原则,帮助您掌握如何使系统具备高可靠性。最后,从SRE的视角分析分层架构,让您了解如何构建更加稳固和可扩展的系统。

第2章 大厂SRE秘籍:颠覆传统运维的速通指南
6 节|51分钟
收起
  • 视频:
    2-1 站点可靠性工程基本概念入门
    15:00
  • 视频:
    2-2 对比运维和DevOps理解SRE
    06:52
  • 视频:
    2-3 从SRE的方法论了解工作流程
    10:22
  • 视频:
    2-4 可靠性设计的十个原则
    10:51
  • 视频:
    2-5 SRE工程师技术栈全貌和成长之路
    04:12
  • 视频:
    2-6 本章总结
    03:33

本章介绍:

本章聚焦云原生技术的核心要素,深入剖析微服务架构如何重塑应用开发模式,以及容器化技术如何成为应用部署与管理的革命性工具。我们还将带您领略云上网络的广阔天地,探讨其构建与运作机制。通过实操演练,您将学会如何利用Docker快速搭建nginx集群,并进一步利用Kubernetes实现nginx集群的可伸缩部署,为您的云原生之旅增添实战经验。

第3章 拥抱云原生:开启稳定高效的云上运维新篇章
8 节|58分钟
收起
  • 视频:
    3-1 微服务:现代化应用的分身术
    06:31
  • 视频:
    3-2 从可靠性工程师视角设计软件架构
    07:31
  • 视频:
    3-3 云原生:构筑未来数字世界的底座
    04:08
  • 视频:
    3-4 容器引擎和容器 编排:封装和运输任何应用的强大引擎
    05:14
  • 视频:
    3-5 云上网络
    06:12
  • 视频:
    3-6 docker基础命令实操
    10:14
  • 视频:
    3-7 容器化实操:基于k8s部署可伸缩的在线服务集群
    13:17
  • 视频:
    3-8 本章总结
    04:04

本章介绍:

本章展开讲解可观测性的核心概念,以及如何度量系统可用性并保障SLA。在面对庞大复杂的系统时,通过APM工具与平台来厘清系统脉络。 本章通过实战演练,您将学会搭建基于SkyWalking的全链路跟踪平台,掌握Prometheus的技术架构和使用技巧。此外,本章还将指导您实战搭建基于阿里云SLS日志服务的nginx网关层监控报警系统,为系统稳定性保驾护航。

第4章 久经实战的武器库:大厂SRE如何化解故障无法感知、难于定位的系统难题
10 节|96分钟
展开
  • 视频:
    4-1 快速入门APM可观测
    试看
    13:12
  • 视频:
    4-2 如何评估系统的可用性和服务质量
    12:09
  • 视频:
    4-3 厘清庞大系统的脉络,APM有哪些工具与平台
    07:09
  • 视频:
    4-4 手动搭建和微服务项目应用skywalking
    11:56
  • 视频:
    4-5 详解promethues架构设计
    04:57
  • 视频:
    4-6 promethues+grafana监控golang应用和机器性能
    12:44
  • 视频:
    4-7 全面掌握promethues的exporter
    08:00
  • 视频:
    4-8 全面掌握promethues的alertmanager
    03:38
  • 视频:
    4-9 实战搭建基于阿里云SLS日志服务的nginx网关层监控报警
    16:32
  • 视频:
    4-10 本章总结
    05:12

本章介绍:

本章节讲解AIOps(人工智能运维)的核心概念及其能力体系,首先,助您了解AIOps如何利用大数据和机器学习技术来优化工作流程。接着,讲解了AIOps的能力体系和技术路线,包括故障发现、异常检测和根因分析等关键功能。 此外,本章介绍了阿里云的SREWorks和腾讯的织云Metis,如何支持企业实现智能运维。展示其在智能监控、决策支持和运维效率提升方面的实践。通过这些案例,您能更好地理解AIOps在现代运维中的重要性及其应用前景。

第5章 SRE新视角:AIOps的探索与实践
5 节|45分钟
展开
  • 视频:
    5-1 什么是AIOps
    10:27
  • 视频:
    5-2 AIOps之故障发现
    13:47
  • 视频:
    5-3 SREWorks:阿里云的一站式DevOps解决方案
    07:37
  • 视频:
    5-4 织云 Metis:腾讯怎么做智能运维metis
    08:42
  • 视频:
    5-5 本章总结
    04:04

本章介绍:

本章节深入讲解了故障预防的关键知识,揭示了在应用迭代中容易被忽视的故障前的工作。包括了应对变更,CI/CD的最佳实践,如何构建有效的容灾策略,安全性与合规性设计,如何通过可观测建设来提升风险管理能力,应急响应流程设计,反脆弱性原则,系统压测,容量规划与预测,过载设计,oncall机制,混沌工程和故障演练,都将被详细阐述。本章旨在为同学提供全面立体的系统故障预防策略,确保系统的稳定性和可靠性。

第6章 未雨绸缪:在故障前打造多维防护网,拒故障于千里之外
13 节|142分钟
展开
  • 视频:
    6-1 本章介绍:了解容易被忽视的故障前工作
    07:19
  • 视频:
    6-2 持续集成、持续交付与持续部署:构建代码审查、质量保证、分级发布的自动化通道-
    16:05
  • 视频:
    6-3 容灾:冗余设计与容错处理
    16:26
  • 视频:
    6-4 安全合规:必要的信息保护与数据安全
    18:07
  • 视频:
    6-5 可观测建设:风险识别、分析、评估和告警
    18:38
  • 视频:
    6-6 故障预案:应急响应流程设计
    09:46
  • 视频:
    6-7 反脆弱:环境、产品和人的关系
    05:47
  • 视频:
    6-8 系统压测:了解系统瓶颈
    09:33
  • 视频:
    6-9 防患于未然:容量动态规划与预测
    09:24
  • 视频:
    6-10 系统过载的预防设计
    05:58
  • 视频:
    6-11 如何合理地建设7✖️24H的oncall机制
    09:35
  • 视频:
    6-12 混沌工程
    09:29
  • 视频:
    6-13 本章总结
    05:34

本章介绍:

本章讲解了在故障应对中,应急响应流程机制的建设和sre需要承担的关键任务。 当故障突然发生,值班同学往往会猝不及防,一头雾水。而棘手的连锁故障更是对系统稳定性的巨大挑战。面对紧急故障,本章讲解了如何建立高效的应急响应机制,确保在第一时间发现并排查定位故障,协同作战。以及,如何按照预案处理各类原因导致的紧急事故,最大限度减少故障带来的损失,快速恢复系统的业务连续性。

第7章 有条不紊:突破传统运维,紧密贴近业务,SRE在故障中的关键角色与应对策略
4 节|40分钟
展开
  • 视频:
    7-1 争分夺秒的故障中
    10:08
  • 视频:
    7-2 故障响应:抓告警,定位,预案执行
    10:16
  • 视频:
    7-3 各种原因产生故障的应对策略
    07:50
  • 视频:
    7-4 棘手的连锁故障
    11:28

本章介绍:

本章讲解了当系统出现故障时,仅仅临时解决问题是远远不够的。通过复盘,我们能够挖掘故障背后的根本原因,避免类似问题的再次发生。为了提升复盘带来的积极影响,本章讲解了如何做高质量的复盘。

第8章 前事不忘,后事之师: SRE从复盘中收获成长力量,开拓创新迈向卓越
3 节|28分钟
展开
  • 视频:
    8-1 失败不是成功之母,复盘才是
    16:28
  • 视频:
    8-2 复盘模板设计和解析
    06:13
  • 视频:
    8-3 在沉淀中成长,在实践中改进
    05:13

本章介绍:

本章通过分析近年比较有代表性的一些大型互联网事故复盘报告,我们可以一窥在复杂的技术环境和高压力的业务场景下,大厂们是如何应对突发故障的。 从故障的发生到响应、处理以及后续的复盘改进,每一个环节都蕴含着宝贵的经验教训。这些案例为我们提供了实际的参考,帮助我们更好地理解 SRE 的重要性和挑战,同时也为我们在面对类似情况时提供了应对策略和方法。

第9章 SRE智慧之鉴:深度剖析近期大型互联网应用故障案例
4 节|37分钟
展开
  • 视频:
    9-1 它山之石可以攻玉,盘点近期几大互联网故障复盘报告
    13:18
  • 视频:
    9-2 2024年4月8日 腾讯云控制台故障
    06:24
  • 视频:
    9-3 2023年11月27日 滴滴全平台服务中断故障
    09:32
  • 视频:
    9-4 2024年8月19日 网易网站+云音乐服务中断故障
    07:10

本章介绍:

在团队中,文化的力量不容小觑。本章讲解了如何打造一种以可靠性为核心的独特文化。可靠性文化的建立对于确保系统的稳定运行、降低故障风险以及提升用户体验至关重要。这种文化强调团队合作、持续学习、主动预防和快速响应,鼓励团队成员积极承担责任,不断追求卓越,以高度的敬业精神和专业素养来保障系统的可靠性。

第10章 SRE底蕴:团队文化共筑系统可靠性长城
5 节|38分钟
展开
  • 视频:
    10-1 SRE可靠性文化的建立
    03:08
  • 视频:
    10-2 oncall值日生的一天
    05:32
  • 视频:
    10-3 平衡oncall和日常工作
    08:10
  • 视频:
    10-4 10.4 新人培养和团队文化
    11:22
  • 视频:
    10-5 跨职能协作与沟通
    09:07

本章介绍:

本章聚焦求职指导与课程总结,为求职者提供了宝贵的指引。 在求职指导部分,深入剖析了当前就业市场的形势,为求职者明确职业方向提供助力。从简历撰写到面试技巧,涵盖了求职过程中的各个关键环节,帮助求职者充分展现自身优势,提高求职成功率。课程总结部分则系统地回顾了整个学习历程,梳理重点知识与技能,让学习者能够巩固所学,更好地将其运用到实际求职与工作中。

第11章 求职指导与课程总结
2 节|25分钟
展开
  • 视频:
    11-1 SRE求职面试辅导
    18:37
  • 视频:
    11-2 课程总结
    06:13
本课程已完结
适合人群
迷茫于未来发展方向,想寻求高薪起点的职场新人
对服务可靠性领域的感兴趣的工程师
想要快速提升,突破发展瓶颈的工程师
技术储备
熟悉 Linux 基础命令和工具使用
了解基本的计算机网络知识
具备任意一种编程语言经验,学习效果更佳
环境参数
go 1.21*
docker lastest
Kubernetes 1.31.0
马艺文
资深SRE工程师
不为别的,只为提升面试通过率
尽管课程时间很长,
但没关系,我们有老师的陪伴,
还有同学之间互相鼓励,彼此帮助,
完成学习后,还能获得慕课网官方认证的证书。
立即购买
数据加载中...
《SRE 急速入门,开辟你的职业蓝海》的真实评价
综合评分:分,共 人参与
篇幅原因,只展示最近100条评价

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题

意见反馈 帮助中心 APP下载
官方微信