随着 Kubernetes 的成熟,越来越多的大数据用户希望将 Spark 作业运行在 Kubernetes 之上。Spark 从 2.3 版本开始已经可以运行在 Kubernetes 之上,然而目前 Kubernetes 默认调度器对于大数据场景的支持还有很多不足,例如高并发场景,动态集群资源共享场景,亲和调度场景等。Volcano 针对于这些大数据特有场景进行了定制化开发。提供了 Pod delay creation,Queue,Zone aware scheduling 等,获得了很好的功能体验和性能提升。
在本次演讲中将介绍 Kubernetes 运行大数据工作负载的探索和实践,以及 Volcano 针对大数据工作负载的优化,并演示相应的功能和性能提升等。
王雷博,华为云基础服务产品部主任工程师,曾就职于 NEC,Platform computing,IBM,Oracle 等公司。拥有 10 年以上大规模分布式计算、高性能计算领域的从业经验。熟悉云原生和大数据领域的开源生态系统。专注于大规模集群资源管理,资源调度,作业调度引擎的开发。