SRE 实践:服务可靠性案例课
搞定 SRE,为你的系统保驾护航
白园  前百度资深运维专家,前快手资深 SRE 专家
专栏
未完结·共 29 讲·已更新 0 讲·每周一/三/五更新
|
1 人已学
|
收藏

你将获得

  • 构建全面的服务可靠性保障体系
  • 掌握 6 大 SRE 核心运维技能
  • 深入解读 10+ 企业级故障案例
  • 探索 AIOps 在服务保障中的实践

课程介绍

在如今的数字化时代,服务的可靠性已成为企业竞争力的关键。无论是电商巨头还是初创公司,服务中断都可能带来经济与品牌信誉的双重损失。然而,确保服务的连续性和稳定性并非易事,需要我们提前预防潜在的风险,快速响应突发事件。

想要做到这一点不仅需要强大的技术支撑,更需要培养一种全面的可靠性思维。为此,我们特别设计了这门《SRE 实践:服务可靠性案例课》。这门课程可以帮助你:

  • 快速识别和填补监控体系的漏洞;
  • 构建完善的容量保障体系,让资源发挥最大效率;
  • 做好应急预案,提高响应的速度;
  • 强化可靠性保障体系基础设施建设;
  • 养成可靠性保障思维;
  • 借助 AIOps 工具,让可靠性工作更加的全面和智能;
  • ……

从技术到业务,从个人意识到组织文化,全方位提升你对服务可靠性的理解和实践能力。

课程设计

基础篇

基础篇会系统地介绍可靠性保证最常见的六项技能:监控、容量、变更、预案、备份和恢复、以及文化和机制,了解这些能力可以解决哪些问题。此外还要培养自身的可靠性意识,不仅仅停留在使用工具和技术解决问题的阶段,而是从意识层开始改变。

应用篇

在应用篇,我们将深入分析具体的案例并探讨监控、容量、变更等技能在实践中的应用。特别是互联网公司那些影响非常大的故障,我们将通过分析这些案例看到背后的问题。同时你会了解到一些复杂场景下的应对方案,比如机房故障应该如何应对等等。

智能运维篇

这部分我们会介绍 AI 跟可靠性的结合能产生哪些火花,以及业界的优秀案例。比如通过异常检测,解决传统监控中难以发现的复杂问题,提高对系统异常的识别速度和准确性;利用 AI 进行时序数据分析和回归预测,可以更准确地预估系统负载,从而实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策,给出合理的建议。

课程目录

查看更多

适合人群

SRE 工程师、运维开发工程师,以及其他对服务可靠性的感兴趣的软件开发人员。

订阅须知

  1. 订阅成功后,推荐通过“极客时间”App 端、Web 端学习。
  2. 本专栏为虚拟商品,交付形式为图文 + 音频,一经订阅,概不退款。
  3. 订阅后分享海报,每邀一位好友订阅有现金返现。
  4. 戳此先充值再购课更划算,还有最新课表、超值赠品福利。
  5. 企业采购推荐使用“极客时间企业版”便捷安排员工学习计划,掌握团队学习仪表盘。
  6. 戳此申请学生认证,订阅课程享受原价 5 折优惠。
  7. 价格说明:划线价、订阅价为商品或服务的参考价,并非原价,该价格仅供参考。未划线价格为商品或服务的实时标价,具体成交价格根据商品或服务参加优惠活动,或使用优惠券、礼券、赠币等不同情形发生变化,最终实际成交价格以订单结算页价格为准。
讲师

白园

前百度资深运维专家,前快手资深 SRE 专家

拥有十余年 SRE 运维经验。 曾负责百度网盘、快手海外版服务稳定性工作,同时也是百度、快手两次央视春晚红包核心保障人员。十余年来经历过数几百次故障处理和复盘,在监控、容量、预案、变更、数据可靠性、AIOps 等多个方向有自己独特的经历和见解。
看过的人还看了
技术领导力实战笔记
TGO鲲鹏会
100 位 CTO 的真知灼见

266讲 | 83599 人已学习

¥98¥399
Flutter 核心技术与实战
陈航
前美团点评高级技术专家

48讲 | 42726 人已学习

¥59¥99
技术管理案例课
许健
eBay 基础架构工程研发总监

28讲 | 21655 人已学习

¥59¥99
Go 语言项目开发实战
孔令飞
腾讯云专家工程师,前 Red Hat、联想云工程师

61讲 | 41845 人已学习

¥68¥199
技术管理实战 36 讲
刘建国
前百度最佳经理人,果见管理工作坊创始人,TGO 鲲鹏会会员

44讲 | 65128 人已学习

¥68¥199
RPC 实战与核心原理
何小锋
京东云混合云首席架构师

29讲 | 40662 人已学习

¥59¥129