董涵,百度智能云事业部资深研发工程师。
百度运维大数据平台的实时计算和存储系统(ODW),是百度智能运维团队自研的一套分布式数据处理系统。
作为百度监控系统的底层,它承载了万亿级监控数据的汇聚计算和存储查询需求,保障了百度所有核心业务能够及时准确地感知故障并完成故障处置,是保障百度业务高可靠的重要环节。
面对这样一个日均处理万亿级别数据,包含数十个模块和数百个节点的服务。它的可用性保障,包含 SLI 制定、容量建设、故障感知、自愈等问题,都是我们面对的重大挑战。
本次分享将详细解析 ODW 系统架构及高可用建设方面所做的工作。