LinkedIn开源TensorFlow on YARN
极客时间编辑部
讲述:杜力大小:946.40K时长:02:02
近日,LinkedIn(领英)公司开源了最新项目 TonY(TensorFlow on YARN),旨在帮助将开源 TensorFlow 机器学习框架与存储在 Apache Hadoop 中的数据连接起来。
LinkedIn 的软件工程师乔纳森·亨(Jonathan Hung)在博文中表示,该公司构建 TonY 的初衷是,它越来越依赖深度神经网络来支持其网站上的一些功能,包括新闻源(news feed)和智能回复。
目前,LinkedIn 面临的问题是,许多功能都是使用 TensorFlow 构建的,而 TensorFlow 缺少连接 Hadoop 集群的一种可靠方式,以便使用该数据来训练算法。
据介绍,他们的 Hadoop 集群上存储了可以用于深度学习的数百 PB 的数据,因此,需要一种易于扩展的方式来处理所有这些信息。
TensorFlow 已经在支持“分布式训练”,这种技术对于处理庞大数据集(如存储在 Hadoop 中的数据集)非常有用。但是,LinkedIn 面临的主要问题是,这个过程需要手动编排,这不是一件易事,也不是大多数数据科学家有能力做的事。
于是,乔纳森·亨及其团队开始着手开发 TonY,以便自动化处理这项任务。TonY 提供了许多功能,有助于改进神经网络的分布式训练工作,包括 GPU 调度以更好地管理资源、支持 TensorBoard,因而更容易调试和优化 TensorFlow 程序以及更好的容错能力,一旦出现任何问题,用户就可以从之前保存的检查点来恢复训练状态。
Constellation 研究公司的分析师霍尔格·穆勒(Holger Mueller)表示,TonY 堪称开源贡献的一个典范,因为它解决了将 TensorFlow 连接到 Hadoop 的关键问题,同时表明了为什么其他开源项目不太合适。
穆勒表示,LinkedIn 给了 TonY 一个很好的使用场景,它对于希望使用 TensorFlow 为下一代应用软件提供支持的企业高管们来说很重要,因为数据已经在 Hadoop 中。它将 Hadoop 中的“数字化排放”(digital exhaust)与最流行的深度学习神经网络之一结合起来。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论