王鹏飞,华为 CloudBU EI 产品部数据分析域架构师。
Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:对中小规模用户,成本上浪费严重,管控节点开销占比过高;和其他云服务接入很生硬,大多数需要用户自己开发;集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。
Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。