你好，欢迎收听极客视点。
毫无疑问，我们已经迈入人工智能时代，机器学习几乎渗透了我们日常生活和工作的方方面面，创建深度学习模型越来越容易，但大规模工业部署却依然没有那么容易。最近 InfoQ 采访了阿里云机器学习研究员林伟，听他分析了大规模机器学习的难点以及设计相对完整的机器学习平台的方法，希望对你有所帮助。
何为大规模机器学习？目前大规模机器学习仍然存在难点，一是现在模型变得越来越大，越来越深，需要强大算力和海量的数据才能够支撑训练出更好的模型；第二模型训练出来需要在推理的时候高效的执行才能真正让模型落地，这就需要非常多系统工程优化，以及模型和工程一起的协同优化。当然并不是模型越大，训练效果就会一定好，模型本身的提高以及训练方式都决定了最终模型实际效果，这就需要我们也在算法，训练手段层面的突破。
对众多深度学习开发者而言，只要拥有一张 GPU 卡，很多流行的 AI 模型都可以得以训练。但对公司而言，随着业务需求的提高、精度要求的提高，就会面临更大模型、更多数据训练的需求，此时就需要更强大分布式训练平台以适应大规模的训练的需求，同时因为数据量增加，我们需要让 AI 训练和大数据平台结合起来，从而满足算法研究者各种数据组合加工，尝试不同训练方式，从而能够快速迭代模型，提高模型的精度。
那么，何为大规模机器学习有明确的界定吗？
采访中，林伟表示，我们所说的“大规模”可以解释为需要几千台机器、几千个工作者一起协同训练，也可以理解为多硬件资源，比如 GPU。
在阿里巴巴内部，林伟所在团队训练过非常大规模的稀疏网络，这类模型很容易大，而且更多偏向于推荐、搜索等信息流类型，往往需要几千个工作者的协同训练。同时对于稠密网络，比如感知类的 AI 网络，比如视觉、语音、自然语言处理现在也在变得越来越大，也需要要几十张到几百张卡一起训练。
如何设计相对完善的机器学习平台？根据林伟介绍，一个大规模的机器学习平台首先要具备优秀的调度能力，并非所有任务每天都需要大量资源，但要保证极限情况下的承受能力足够强，而所需资源不多时又可及时释放。所以，大部分机器学习平台都是从小规模逐渐做起来的，这个过程会积累一些能力，比如沉淀一些框架和平台，或者帮助开发者做分布式训练等。
阿里最近推出了机器学习平台 PAI 的 DSW，其托管在云平台之上，非常方便，开发者可随时打开 IDE，该平台可自动保存工作内容，然后可以快速开发。如果开发者觉得模型基本完成，希望无感知提交到更大的集群中时就涉及关于模型的开发。
模型离不开数据，在数据处理中，开发人员需要有配套的大数据处理能力，需要对数据进行清洗和提纯，这就要求平台需要具备大数据能力，这也是为什么计算平台会把 AI 和大数据作为两大引擎，因为彼此之间需要交互。同时，平台上训练出的模型需要在业务中达到一定效果，比如让服务做到低延时、高吞吐，保证服务发布、更新、迭代、切换以及报警、监控等。
AI 需要大量的数据，而这些数据还得有标签，这意味着数据标注平台同样重要，可以帮助用户快速处理数据。其实，现在 AI 整个训练流程非常灵活，如果要在更大的范围内做一些训练，比如发布一个模型，可能会有一些 bad case 或者识别不好的负样本，我们要把这些 case 积累在一起，并帮助用户重新调整模型以提高最终效果。
事实上，AI 属于计算密集型任务，需要大量数据交互，所以分配资源的时候要根据任务大小来考虑如何对应到底层硬件的拓扑结构上，使之能够充分利用异构特性完成整个过程，我们能够充分利用系统对训练任务的理解，有效调度不同部分到不同的资源上面，充分地利用多种硬件资源，发挥系统的最高效率。
此外，要考虑容错，因为过大的集群经常容易发生错误，机器并不是永动机，随时可能出现问题，软件也不能保证没有 Bug，容错需要和调度系统配合在一起。
在这个流程中，为了提高效率，还需要配备各种性能优化和加速工具，包括推理、量化、压缩、蒸馏等，这些工具彼此之间的连接也是平台需要做的事情。
总之，AI 工程非常复杂，牵涉很多环节。下文将分享阿里云的大规模机器学习实践，了解阿里云的解决方案。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部