容量保障核心技术与实战
吴骏龙
前阿里巴巴本地生活 P8 高级专家
5387 人已学习
新⼈⾸单¥29
登录后,你可以任选2讲全文学习
课程目录
已完结/共 19 讲
容量保障核心技术与实战
15
15
1.0x
00:00/00:00
登录|注册

01 | 容量保障的目标:容量保障的目标是什么?该如何度量?

你好,我是吴骏龙,欢迎和我一起学习容量保障。
俗话说万事开头难,在没有弄清楚目标和需求之前,很难进行容量保障,这就好比建筑图纸没有设计出来之前,你肯定不会开始砌墙。此外,不同角色看待容量的视角也是不一样的,对用户来说可能是想用的功能正常,访问速度快;而对技术人员来说,则是某个性能指标或可用性指标达到可靠的范围。
在今天这一讲中,我会着重和你讨论技术视角的目标,但同时也要明确,任何技术目标最终都是要体现到业务,也就是终端用户上的,脱离业务场景制定容量保障的目标,几乎肯定会跑偏。因为不同业务场景对于容量保障的要求是不一样的。
举一个极端的例子,如果我们面对的是企事业单位的某个内部系统,有着非常稳定的用户规模和几乎不变的产品功能,那么容量保障就是基于固定用户量的一次性保障工作。相反,如果是大型电商系统,业务场景有明显的流量峰值,且经常举办大促活动,容量保障就是一部“跌宕起伏的连续剧”。

容量保障的目标是什么?

那么,容量保障的目标究竟是什么呢?我们先来回答这个问题吧。
总结一下其实就两句话:
第一,以尽可能小的成本确保系统当前和未来的容量充足,即容量规划;
第二,解决已知的容量问题,预防未知的容量问题,即容量治理。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了容量保障的目标和量化指标,以及用户体验在容量保障中的重要性。文章首先强调了量化指标的重要性,特别是在衡量服务可用性方面的SLA、QPS/TPS和用户体验。在具体介绍QPS/TPS时,文章通过实际案例和计算方式,帮助读者理解了如何将业务指标转换为容量保障的技术目标。另外,用户体验作为容量保障更高级的目标也得到了重点阐述,强调了用户体验对于产品竞争力的重要性。总的来说,本文通过深入浅出的方式,结合具体案例和图表,全面介绍了容量保障目标的量化方法和指标选取,既强调了技术视角的目标,又强调了业务场景对容量保障要求的不同,为读者提供了全面的视角。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《容量保障核心技术与实战》
新⼈⾸单¥29
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • 烟灰小子
    老师,你好。请问下同样按照二八法则,c() 接口的QPS 是不是 1426, 还是说要看b() 接口到c() 接口的请求情况? 我的计算规则: - 按照二八法则,getAct3() 接口的 QPS 是 463PV - 假设b() 接口全部请求到c(),那么b() 接口传递给c() 接口的QPS 也是463(因为b() 接口getAct2()接口的调用,而它的QPS 也是463PV) - 除了以上两个接口,c() 接口还有一个其他页面和链路过来的 500QPS 所以c()接口的QPS 总计大概是 463 + 463 + 500 = 1426

    作者回复: 赞,回答完全正确!这个问题的重点在于要考虑到其他页面和链路的调用流量,实际情况中这一块流量是不会直接告诉你的,你需要在梳理相关链路时留意到这一点

    2021-05-14
    6
  • 张锡好
    关于用户体验作为容量保障的更高目标这点,可否再细讲下,现在有点没看明白

    作者回复: 我们在制定容量保障的目标时,容易形成的思维定势是从技术指标的视角出发,例如:某个接口要支撑多少TPS、某个服务的SLA要达到多少等。但这些技术指标是怎么来的呢?是根据业务目标转换而来的,是根据竞争对手的水平类比过来的,是根据行业通行标准演化出来的,还是从用户体验角度去考虑的呢? 软件产品做出来是给人用的,用户体验应当作为容量保障的初心。其实指标还是那些指标,只不过出发点是用户体验,可以品一品。

    2021-08-10
    4
  • 于加硕
    吴老师你好,我有几个观点和你不太一样。 1.容量保障的量化不能使用SLA,原因是SLA是稳定性保障综合的结果,而容量保障只是稳定性保障方向之一,个人觉得在故障管理系统中,度量有多少次因容量问题导致的故障即可证明容量保障是否有效;证明容量保障有效性的另一个目标是提升企业资源利用率,例如达到成熟度2级;这两个指标分别对应本文末尾的治理和规划。 2.文中所说,梳理每个服务上下游接口调用比例,分布式服务可以高达上千个服务模块,每个模块提供的接口少则几十,多则上百,请问吴老师这个一般企业用什么软件来实现呢?

    作者回复: 你好,非常欢迎提供不同观点,我们多多思辨。 关于第一个问题,你说的很对,决定SLA的并不只是容量保障工作,我在文中其实有提到,留意这句话:“不止是容量问题,有很多因素都有可能影响 SLA,比如:线上漏测的Bug、网络抖动、服务器断电等等,因此需要识别出影响SLA的容量问题,再判断是否满足目标。” 第二个问题,我们是依托企业自建的链路追踪系统进行梳理的,对标开源系统的话,有点类似于CAT。如果没有这个系统,仅仅依靠人工梳理会非常费时,当然了,如果企业有上千个微服务,很难想象没有链路追踪系统的情形:)

    2022-06-21
    2
  • 汤进贤
    请教一下老师,对于复杂业务的链路分析接口调用的扩散比,有没有比较推荐的计算方法?接口比较多,手工一个一个梳理很费时间。

    作者回复: 你好,扩散比的计算本身是不困难的,我们可以先梳理出压测链路,再梳理出这些链路中上下游接口的调用比例,综合起来就得到了扩散比。 难点在于,如何完整无误的梳理出所有压测范围内的接口的扩散比,依赖手工统计的方式往往是吃力不讨好的,我们可以基于链路追踪系统来提供素材(链路及接口调用信息),采样高峰期(或典型业务期)的数据,汇总后得到结果,当然,也可以编写脚本对这些采集到的链路做一些初步的去重,节省手工汇总的工作量。 对于新的业务或功能,可以在上线前根据技术方案先期整理出接口扩散比,减少后期梳理的工作量。

    2023-04-07归属地:广东
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部