阿里巴巴调度与集群管理系统Sigma
极客时间编辑部
讲述:丁婵大小:1.46M时长:03:12
资料显示,今年天猫双 11 以 1682 亿的成交额再破记录,但此次大促 IT 成本的增长相较于去年却足足减少了一半,而这一切,都源于阿里巴巴云化架构的战略。其中,Sigma 集群管理系统是阿里巴巴集团云化战略的关键系统。
Sigma 通过和离线任务的伏羲调度系统深度集成,突破了若干 CPU、内存和网络资源隔离的关键技术,实现了在线和离线任务的混合部署。在日前举办的 ArchSummit 大会上,阿里巴巴调度系统首席架构师张瓅玶,分享了 Sigma 调度系统的整体架构和历史演进、架构和实现的特点、调度及资源优化等内容。
张瓅玶表示,阿里巴巴最初做调度的时候,各个部门技术架构相对比较独立,有各自的资源池,也能够比较垂直的从上至下做一整套技术栈。不过,这样也有一个比较大的缺点,就是在大规模资源使用的情况下,如双 11,一些没有直接参与双 11 交易链路的资源可能比较空闲,而双 11 直接相关的系统又背负着较大的资源压力,资源的使用率不均衡导致资源严重浪费。
在这样的情况下,就需要一个调度系统去整合各部分资源,逻辑上要统一资源池,更充分的分配和使用各部分资源。Sigma 调度系统由此而生,具体而言,Sigma 的整体架构由 Alikenel、SigmaSlave、SigmaMaster 三层大脑组成。
其中,Alikenel 部署在每一台 NC 上,对内核进行增强,在资源分配、时间片分配上进行灵活的按优先级和策略调整,对任务的时延,任务时间片的抢占、不合理抢占的驱逐都能通过上层的规则配置自行决策。
SigmaSlave 可以在本机上进行 CPU 的分配、应急场景的处理。通过本机 Slave 对时延敏感任务快速做出决策和响应,避免因全局决策处理时间长带来的业务损失。
SigmaMaster 是一个最强的大脑,它可以统揽全局,为大量物理机的容器部署进行资源调度分配和算法优化决策。
整个架构是面向终态的设计理念,请求进来后把数据存储到持久化存储,调度器识别调度需求分配资源。这个系统采用阿里 Pouch 容器,兼容 OCI 标准,兼容 Kubernetes API,张瓅玶表示,这样做的目的是希望和开源社区共同建设和发展。
至于如何通过调度集群管理系统,实现资源的效率提升,张瓅玶表示,这里有一个非常关键的技术叫做混部。将一种对于资源的使用可以随时避让的业务,如计算任务,和一种对资源的使用要求很高的延时敏感任务,如在线服务,部署在一起。当发生紧急情况时,将资源分配给对延时敏感的紧急任务,来实现资源的有效分配。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论