下载APP
搭建可靠性系统工程实践
不同公司的可靠性系统实践经验分享
主讲人:宋涛
约41分钟 · 6404人已学习

你将获得

  • 了解3个可靠性的影响因素;
  • 了解不同公司文化下解决可靠性问题的思路;
  • 借鉴团队内部推动变革的经验教训。

课程介绍

互联网时代对系统的可靠性提出更高的要求。关键系统往往要求 4 个 9 的可用性,也就是每年的不可用时间不能超过 53 分钟。与此同时,各种开源框架、工具以及工程方法的使用,在提升效率的同时,也带来系统架构复杂,系统失败容易迅速蔓延、放大的副作用。有时一个错误的数据操作或者一行简单的代码缺陷,就能使核心系统瘫痪且迟迟无法恢复。为了应对这个挑战,不同的公司结合本身的技术能力和业务特点,形成了多样的可靠性最佳实践。

本次分享会根据实际工作经验,探讨技术负责人在提升系统可靠性时可能面对的各种权衡和选择,并以分享在携程的探索,特别是遇到的挑战和接受的教训。

讲师介绍

宋涛,携程网商旅事业部 CTO。加入携程前,在微软、亚马逊总部长期从事技术管理工作,在操作系统内核和云计算等领域有着丰富的经验。曾担任 AWS 云存储服务技术主管,对系统可靠性、高并发和数据一致性有深入研究。2017 年加入携程集团,先后担任机票事业部技术总监、商旅事业部 CTO 等职务。领导研发了携程新一代机票搜索引擎,显著提升了高并发查询下的系统性能和可靠性。

北京大学计算机系毕业,加州大学计算机博士,华盛顿大学 MBA。

收藏
免费领取