360开源其深度学习调度平台XLearning
极客时间编辑部
讲述:丁婵大小:1.48M时长:03:14
近日,奇虎 360 宣布开源深度学习调度平台 XLearning,基于 Hadoop Yarn 完成了对 TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras 等常用深度学习框架的集成。
XLearning 为各类深度学习框架的使用者提供了统一、稳定的作业提交平台,实现了资源共享,极大的提高了资源利用率,并且具有良好的扩展性和兼容性,已经在 360 搜索、人工智能研究院、商业化、数据中心等业务部门得到广泛使用。
对此,InfoQ 第一时间采访了 XLearning 项目负责人李远策,了解平台建设背景和设计思想。
据李远策介绍,XLearning 的设计思路是采用 Hadoop Yarn 来调度深度学习框架,是典型的“AI on Hadoop”的实现。在他看来,同行业的公司都会有类似的需求,所以 360 选择开源,希望能给大家建设大数据 + 人工智能平台做个参考。
XLearning 虽然架构简洁,但具有丰富的功能,并依托于 Yarn 提供作业资源的统一管理。
1. 支持多种深度学习框架
XLearning 支持 TensorFlow、MXNet 分布式和单机模式,支持所有的单机模式的深度学习框架,如 Caffe、Theano、PyTorch 等。对于同一个深度学习框架支持多版本和自定义版本,满足用户个性化需求,不受限于集群机器上各学习框架的安装版本。
2. 基于 HDFS 的统一数据管理
XLearning 提供多种模式用于数据的输入、输出,包括数据的流式读写、直接 HDFS 读写等,可根据作业处理的数据量与集群机器硬盘容量,视情况决定所采用的读写方式。
3. 可视化界面
为方便用户查看作业信息,XLearning 提供可视化界面用于展示作业执行进度和输出日志等内容。作业执行完毕后,还可以查看日志内容,便于分析训练过程进展。
4. 原生代码兼容
XLearning 支持 TensorFlow 分布式模式的 ClusterSpec 自动分配构建,单机模式和其他深度学习框架代码不用做任何修改即可迁移到 XLearning 上,便于用户快速使用。
5.Checkpoint 功能
利用深度学习框架本身的 Checkpoint 机制和直接读写 HDFS 数据功能,XLearning 方便用户实现训练恢复继续执行。
不过,李远策也指出,相比公司使用的版本,开源的 XLearning 是一个简化版本,主要是受限于对 Yarn 功能的依赖。
360 使用的 Yarn 版本,公司在社区版本上做了不少增强,比如支持 GPU 的资源调度、GPU 通信亲和性的感知、DockerContainer 支持等。依赖于这些特性,公司在用的版本多出了 GPU 资源调度支持、作业 Docker 化、临时 GPU 虚拟机、Container Metrics 可视化图表展示等功能。
在采访的最后,李远策也表示,这些功能后续都会通过提供 Yarn Patch 或者开源自用 Yarn 版本来分享给大家,也欢迎大家随时沟通。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论