Kubernetes Scheduling 兴趣组联合负责人,Volcano 项目发起人及负责人。曾任职 IBM 架构师,IBM Spectrum Symphony 客户工程及维护负责人。
随着 Kubernetes 的成熟,越来越多的用户希望 Kubernetes 可以作为统一平台同时支持在线业务和离线业务;但在支持离线任务方面 Kubernetes 还有很多不足,例如,Gang-scheduling, Fair-Share, Queue 等。Volcano 是基于 Kubernetes 的,运行离线作业 / 高性能作业的系统;支持主流的高性能作业负载,包括:机器学习 / 深度学习,生物信息学 / 基因组学,以及其他“大数据”应用程序。
在本次演讲中将介绍 Volcano 的总体架构,运行离线作业常见的问题及解决方案,与各个框架的集成情况以及对高性能工作负载的优化,并演示相应的功能和性能提升。