GPU在联邦机器学习中的探索
极客时间编辑部
讲述:丁婵大小:6.58M时长:04:47
在最近的英伟达 GPU 技术大会上,微众银行 AI 团队联合星云 Clustar 发表了《GPU 在联邦机器学习中的探索》主题演讲,详细介绍了其 GPU 加速联邦学习的研究成果。以下为重点内容。
联邦学习破解“数据孤岛”难题
“联邦学习”(Federated Learning)指的是在满足隐私保护和数据安全的前提下,设计一个机器学习框架,使各个机构在不交换数据的情况下进行协作,提升机器学习的效果。其核心就是解决数据孤岛和数据隐私保护的问题,通过建立一个数据“联邦”,让参与各方都获益,推动技术整体持续进步。
微众银行 AI 部门的高级算法工程师黄启军提到,在目标检测领域,已标注数据是非常珍贵的资源,各家公司一般都有各自不同场景的标注数据,但这些数据相对散乱,如想利用其它公司已标注好的数据模型来建立更优模型,只能通过拷贝聚拢数据,但这种行为不符合 GDPR、《数据安全管理办法》等法律规范。而引入横向联邦学习机制以后,个体可以在本地设备中直接标注数据,无需上传。本地模型的训练数据标注完成后,客户端将自动加入联邦,等待进行训练,当有两台设备进入到等待训练状态时,则开始进行联邦学习训练模式。
相比于单点模型,联邦学习使得本地设备的 mAP 大幅提升,同时 Lossless 更加稳定。mAP 平均提升 15% 的数据显示,整体上联邦学习远比单点模型效果更佳。
GPU 加速联邦学习升级
作为一门有前景的新兴技术,联邦学习为了完成隐私保护下的机器学习,使用了很多与传统机器学习不一样的方法,也因此迎来了诸多新挑战。在会上,黄启军也分享了微众银行 AI 部门携手星云 Clustar 突破的联邦学习计算三大难题。
首先就是大整数运算问题,传统机器学习一般使用的是 32-bit 的基本运算,这些基本运算一般都有芯片指令的直接支持,而联邦学习中的 Paillier/RSA 算法依赖的是 1024 或 2048-bit 甚至更长的大整数运算,但现实情况是,GPU 流处理器并不直接支持大整数运算。面对这一情况,双方基于分治思想做元素级并行,通过递归将大整数乘法分解成可并行计算的小整数乘法,从而实现“化繁为简”,间接完成 GPU 流处理器的大整数运算。
其次,大整数运算中多是模幂、模乘等复杂运算,即 ab mod c (a,b,c 均为 N 比特大整数),而 GPU 做模幂等运算的代价极大,传统的朴素算法会优先计算 ab,再计算值对 c 取模,这一算法的缺点是复杂度高达 O(2^N),且中间乘积结果很大。而单一的平方乘算法则是通过一个公式(ak = (ak/2)2 = ((ak/4)2)2 )实现,你可以点击文档查看该公式。虽然复杂度下降至 O(N),且中间结果大小不超过 c,但因为需要做 2N 次取模运算,GPU 在此项上花费时间极高。而双方摘取平方乘算法优势,并加入蒙哥马利模乘算法计算模乘,就完全避免了取模运算,大幅度降低了 GPU 的消耗。
最后,在分布式计算时,联邦学习不止涉及数据中心内网传输,也有广域网传输的场景,且密文数据体积要增加几十倍,传输的次数也是传统机器学习的几倍,双方通过 RDMA 网络技术加上自研的动态参数聚合模型技术以及机器学习专业的网络传输协议,对联邦学习在数据中心内通信场景以及跨广域网通信场景都进行了很好的性能优化。
以上就是 GPU 加速联邦学习的挑战和突破方法。联邦学习近年来在学术研究、标准制定和行业落地等方面发展迅速,有望成为下一代人工智能协同算法和协作网络的基础,全球范围内也正在掀起“联邦学习”的热潮。希望今天的内容能给你带来参考价值。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- springday数据是你的,模型是俺的1
收起评论