360开源超大规模机器学习计算框架XDML
极客时间编辑部
讲述:杜力大小:2.49M时长:02:44
最近,针对超大规模机器学习的场景,360 开源了内部的超大规模机器学习计算框架 XDML。这是一款基于参数服务器(Parameter Server),采用专门缓存机制的分布式机器学习平台。它在 360 内部海量规模数据上进行了测试和调优,在大规模数据量和超高维特征的机器学习任务上,具有良好的稳定性,扩展性和兼容性。
1. 提供特征分析与变换等功能模块。
在现有的机器学习模型的构建中,特征生产与业务和数据高度相关。特征分析与变换处理粒度过小,在大数据情形下性能较差,而且缺乏一站式的特征分析与变换工具。
XDML 能够最大程度地挖掘并行度,结合样本并行 + 特征并行 + 算子并行 / 融合 /OnePass 化,显著提升特征工程的性能。在包含数千个特征的稠密 benchmark 上进行特征分析与变换测试,它也能很好地适应稀疏数据特征分析。
2. 实现常用的大规模数据量场景下的机器学习算法。
超高维度的参数优化,对于开发者算法能力要求较高,而且工作量较大,需要大量的时间和精力进行调参工作。XDML 内化学界最新研究成果,并重构了准线性模型,在效果保持稳定的同时,大幅加速收敛进程,显著提升模型与算法的性能。
3. 充分利用现有的成熟技术,保证整个框架的高效稳定。
在互联网领域,技术框架更新迭代十分迅速,XDML 可以与业界成熟的技术无缝衔接,整个框架具有高效的稳定性。
4. 完全兼容 Hadoop 生态,和现有的大数据工具实现无缝对接,提升处理海量数据的能力。
XDML 具有与目前 Hadoop、Spark 等大数据框架无缝对接的功能,同时替换 Spark 原生能力的性能 / 效果瓶 颈,提供更好的大数据框架使用体验。
5. 在系统架构和算法层面实现深度的工程优化,在不损失精度的前提下,大幅提高性能。
在高维稀疏数据场景中,如何处理千亿级参数训练,百亿乃至千亿级别样本训练中模型的存储、数据如何传输、模型的更新等问题,一直是业界急需解决的问题。XDML 具有模型的快速存储能力,高效的数据传输,从多个角度提升了高维稀疏数据场景中,提升模型的训练速度提升整体的性能。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论