下载APP
登录
互联网时代对系统的可靠性提出更高的要求。关键系统往往要求 4 个 9 的可用性,也就是每年的不可用时间不能超过 53 分钟。与此同时,各种开源框架、工具以及工程方法的使用,在提升效率的同时,也带来系统架构复杂,系统失败容易迅速蔓延、放大的副作用。有时一个错误的数据操作或者一行简单的代码缺陷,就能使核心系统瘫痪且迟迟无法恢复。为了应对这个挑战,不同的公司结合本身的技术能力和业务特点,形成了多样的可靠性最佳实践。
本次分享会根据实际工作经验,探讨技术负责人在提升系统可靠性时可能面对的各种权衡和选择,并以分享在携程的探索,特别是遇到的挑战和接受的教训。
宋涛,携程网商旅事业部 CTO。加入携程前,在微软、亚马逊总部长期从事技术管理工作,在操作系统内核和云计算等领域有着丰富的经验。曾担任 AWS 云存储服务技术主管,对系统可靠性、高并发和数据一致性有深入研究。2017 年加入携程集团,先后担任机票事业部技术总监、商旅事业部 CTO 等职务。领导研发了携程新一代机票搜索引擎,显著提升了高并发查询下的系统性能和可靠性。
北京大学计算机系毕业,加州大学计算机博士,华盛顿大学 MBA。