慎熙鹏教授:将深度学习训练时间缩短69%
极客时间编辑部
讲述:杜力大小:1.12M时长:02:27
最近,北卡罗莱纳州立大学的研究人员发表论文介绍了他们发明的新技术,一种名为自适应深度重用(Adaptive Deep Reuse)的技术,简称 ADR。该技术可以最高减少 69% 的深度神经网络训练时间,而且没有损失精度。
据介绍,ADR 利用了输入到神经网络层的数据值之间的相似性。训练神经网络的一个基本操作是把输入数据的向量与权重矩阵相乘,正是这种乘法运算消耗了训练过程中大部分的处理能力。
ADR 的核心思想是,不是对每个唯一的输入向量重新计算向量 - 矩阵乘积,而是训练过程把输入进行聚类,对相似的输入向量重用单个近似乘积结果。这确实降低了计算精度。但是,训练的早期阶段与后期阶段相比,对近似误差的敏感性要低一些。在后期阶段,处理过程调整聚类参数以减少近似误差。此外,聚类和近似不仅可以用于神经网络的输入,还可以用于网络隐藏层的激活映射。
ADR 的开发者慎熙鹏向 InfoQ 透露,发明 ADR 的想法源于长期远景。他们一直在试图找出冗余的计算并避免它们的发生。在此之前,他们尝试了很多方法。比如查看过滤器权重矩阵,它可以是稀疏矩阵,也就是说,其中的很多元素为 0。他们进行了探索,试图避免和 0 做乘法,但是很难。
他们还尝试了激活映射或输入。因为很多图像拥有大量相似或相同的像素点,经过调查现实世界的数据集,发现的确如此。接着证实在中间层上也是这样。基于这个结论,他们唯一要做的就是,如何有效地找到重用机会并转化为实际的时间节省。在他们找到解决方案后,自适应深度重用技术就这样诞生了。
而之所以选择 TensorFlow 来实现 ADR,是因为研究团队对这个流行框架更为熟悉。并且 TensorFlow 可以跨平台工作。
此外,该技术还适用于 RNN 或 Transformer 等其他深度神经网络架构,慎熙鹏告诉记者,ADR 已经证明其有可能用于嵌入式设备,如物联网。他们还讨论过在LSTM上使用它,但是还未通过实验对它的好处做定量判断。慎熙鹏还表示,他们的目标是把 ADR 推广到其他网络。
论文链接:ICDE 2019 网站
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 杰之7这样做的过程是减少了相似数据集的计算,在海量计算中,对效率有会提升,如果能保证准确性不变甚至更好,会拥有更好的价值体现。
收起评论