1420人学习
字节跳动混沌工程的落地实践
童飞帆 字节跳动基础架构部工程师
混沌工程是通过故障注入的方式帮助系统寻找薄弱点,从而提高系统的稳定性。随着微服务、云原生相关技术的发展,分布式系统已经流行在业界各处,但因此也带来了复杂度急剧上升、故障发生难以预测后果、难以避免与验证等挑战。而混沌工程正是通过故障注入等方式为切入点,帮助解决以上问题。本次分享讨论了字节跳动引入混沌工程以来从0开始的相关实践,在引入混沌工程过程中,我们也曾受到质疑与挑战。在实践过程中,我们探索了如何降低用户的演练成本,对故障进行了抽象建模;我们建立了自助平台,赋能各业务具备自助演练的能力;我们沉淀了红蓝对抗平台,帮助各业务线更全面地摸底系统稳定性。听众收益了解混沌工程在字节跳动从0开始遇到的挑战了解混沌工程在字节跳动从0开始的落地实践了解混沌工程在字节跳动的落地形式了解混沌工程的产品化演进