SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
411 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

02| 容量:从业务视角看容量到底是什么?

你好,我是白园。从今天开始我们学习可靠性保障领域的第二个方面——容量。
2013 年 10 月,百度举办了一场盛大的科技大会,会上宣布了一个重大消息:百度网盘的用户存储容量将从 5GB 大幅提升到 2TB。这一时期,互联网行业迎来了“百盘大战”,各类网盘服务陆续出现,竞争非常激烈。在这个变革的浪潮中,百度网盘的流量激增 20 倍。面对这么大的流量压力,百度网盘没有出现任何故障。
这背后的关键因素就是容量保障。所以这节课我就带你详细了解容量保障体系,并教你如何有效地开展容量相关的工作。

容量的本质

首先,让我们以第一性原理来探讨这个问题,容量本质上是资源消耗与资源补充之间取得一个平衡。目标是在确保系统可靠性的同时,尽可能地减少资源的投入。你可以结合我给出的示意图来理解。

容量为什么这么重要?

容量管理对于系统稳定性的重要性,就像身体素质对人体健康的重要性一样,在生病的时候身体素质比较好的人往往恢复得更快,而身体素质比较差的人恢复缓慢,甚至可能引发其他基础疾病。
同样,如果服务的容量管理不善,就可能导致一系列问题,比如流量波动、热点事件以及变更操作都会引发资源冲突,从而导致故障。相反,如果容量管理得当,很多类似的问题都不会出现。所以一个好的容量管理是提升系统可靠性的基础。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 容量管理的核心问题包括明确容量的定义、实现对容量的观测、确保对资源需求的准确评估以及对容量问题的快速处理。 2. 容量观测需要密切关注系统的实时水位状态进行监控,以及对长期性能趋势进行预测,推荐使用实时的容量监控大盘和定期进行的容量巡检。 3. 容量分析解决了评估当前资源是否满足需求、制定资源补充策略和确定资源补充的时间节点等核心问题,需要运用复杂的数学模型和算法支持。 4. 容量管理策略必须紧密结合具体业务需求,确保所采用的容量定义和方法与业务目标高度一致。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部