09|统一调度:只是问题非常多而已,摔出来就行了
毕玄
你好,我是叶芊。
上节课我们聊到 16 年毕玄拆完运维去带系统软件事业部跟研发效能部的经历。
对于高层根本不感兴趣的研发效能团队,定位是个大问题,做了一通现状分析之后,他终于找到了清晰的发力点:短期做代码智能化,长期解研发模式和环境干扰。
对于另一个团队——系统软件部,虽然高层给了明确目标,但他说做的也很不顺利,最后能做成也很难讲,可能时机比较巧。
作为自己在阿里 14 年的第三大亮点,统一调度的成功居然归因于“时机”?为什么?让我们跟着亲历这个集团级项目的总架构师,看一看当时有哪些障碍?他又是怎么处理的?
极客时间:你当时带两个团队,研发效能之外就是统一调度,这个部门的目标是什么?
毕玄:本质也是成本,阿里内部以前有好几套调度系统,这次想做成一套统一的,我们叫 Sigma,向 Borg 的下一代 Omega 致敬。
调度我们做了很多年,2011 年做容器化 T4 就是,核心目标就是为了控制成本,当时我们做了两三年,大概知道了在这方面 Google 的 Borg 做得非常好。
那个时候传闻 Google 认为自己的核心竞争力是什么?最早他就做搜索,他认为自己最重要的竞争力是,一我排序结果的准确度比多数公司好;二做同样的效果我付出的成本是你们的 1/10。这确实是,成本如果差这么远,商业上就没办法做下去了,这里面,Google 觉得调度系统 Borg 承担了很大角色,类似它的 Page Rank 算法,是整体竞争力的一部分。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
阿里巴巴的统一调度项目旨在解决公司内部多套调度系统的问题,通过打造一套统一的调度系统Sigma,向Google的Borg致敬。该项目的核心目标是控制成本,解决大数据和在线业务的机器利用率差异和资源浪费问题。项目面临的难点包括大数据和在线业务机器的合并部署,以及解决物理基础设施和干扰问题。通过实践经验,读者可以了解到大型互联网公司在调度系统优化方面所面临的挑战和解决思路,以及技术创新对业务效率和成本控制的重要性。该项目的实施使得公司服务器利用率提升至20%,意味着成本有可能减半。文章还介绍了项目的技术挑战、解决方案以及对业界的启发作用。文章还探讨了阿里巴巴在技术选型上的经验教训,强调了拥抱开源的重要性,以及对开源技术成熟度的判断和应对策略。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《超级访谈:对话毕玄》,新⼈⾸单¥59
《超级访谈:对话毕玄》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(5)
- 最新
- 精选
- 唐超伟调度这个不太懂 利用率是怎么计算的
作者回复: 利用率最简单的是看对应的核心指标,例如计算型的业务看cpu,内存利用率,存储型业务看磁盘空间利用率,磁盘iops利用率等。
2022-10-02归属地:浙江6 - Geek_6b0f6fgoogle CPU使用率做到50%,阿里做到30%,有什么paper介绍吗?平均使用率做不上去是因为高峰期间无法满足需求吗?
作者回复: 可以去看下borg的论文。 平均使用率上不去的主要原因是业务通常都有波峰波谷,以及为了保障业务的高可用,通常要做不小的冗余,如果一直靠临时的弹性,一方面风险太高,另一方面业务的高峰什么其实并不是那么好预测。
2022-11-30归属地:浙江1 - 术子米德🤔☕️🤔☕️🤔 【R】谷歌式的调度不区分机器,思路的起点就不一样,人家做到且认为这是它的核心竞争力之一。 【.I.】核心竞争力,问问自己到底是什么?会卡壳。我个人的核心竞争力,来自规划,还是来自总结,或者在别人的反馈里,挑选出几个所谓的竞争力。这真的蛮伤思考力,如果有所谓的思考力的话。如果把竞争力,当做一个目标,以结果形式呈现,那就得问自己,到底怎样的竞争力,在未来的某个时候,以怎样的形式体现。同时产生的问题就是,我到底为何需要这个或那个竞争力,才有从其中挑选所谓的核心竞争力。如果动机来自爱好,似乎喜欢就好,谈何竞争。如果动机来自生存,紧缺时你死我活,宽裕时随遇而安,要么战争,要么平和,谈何竞争。如果动机来自欲念,有还不够要更多更好,到左手换到右手点功夫,就已经嫌弃不够,才是满脑子的竞争。如此说来,核心竞争力的起点,是对欲念的挖掘,只有给自己开掘出一个巨大无比的欲念之坑,才有核心竞争力启动的原点。至于所谓的核心竞争力,无非就是填欲念的路上,人家没有的我有,人家都有的我更强或更省。 【.I.】开源,OpenSource,它的本意是开放源头,即让大家知道这玩意儿哪来的,或者说这玩意儿谁在主导。顺着这个思路,即谁在主导就能够看清,或者说可以作为评估如何采纳开源的思路。典型如K8S,谷歌带着红帽小弟在主导,明显其动机是让市面上不再有其它竞争者,那就使用其最好的部分,改造适配到自己的场景。 【Q】谷歌的工程师,给我的感觉,除了技术能力,就是所谓的硬能力,还有更多产品意识和价值意识,就是所谓的软能力。在我之前的认识里,硬能力最重要,但是现在发现,软能力同样重要。更伤心的发现,软能力没有在成长过程里得到指引和学习,无论是在学校还是在工作之后。想咨询一下老师,对于软能力有怎样的看法,如果涉及到培养,如何在学校里和工作后持续驯养这种能力? —— by 术子米德@2022.10.27
作者回复: 软能力,尽管有很多各种各样的培训,但我感觉这个还真挺难,感觉好像还得有师傅带这样的方式。 K8S能做起来,很大程度是因为G家找了红帽这样的师傅。
2022-10-27归属地:浙江 - sesamegu统一调度想法好直接,不过里面要解决的问题很多,收益到时很好量化2022-10-07归属地:浙江1
- JunFacebook有个叫Twine的系统,也是统一调度的2022-09-30归属地:北京
收起评论