最近，北卡罗莱纳州立大学的研究人员发表论文介绍了他们发明的新技术，一种名为自适应深度重用（Adaptive Deep Reuse）的技术，简称 ADR。该技术可以最高减少 69% 的深度神经网络训练时间，而且没有损失精度。
据介绍，ADR 利用了输入到神经网络层的数据值之间的相似性。训练神经网络的一个基本操作是把输入数据的向量与权重矩阵相乘，正是这种乘法运算消耗了训练过程中大部分的处理能力。
ADR 的核心思想是，不是对每个唯一的输入向量重新计算向量 - 矩阵乘积，而是训练过程把输入进行聚类，对相似的输入向量重用单个近似乘积结果。这确实降低了计算精度。但是，训练的早期阶段与后期阶段相比，对近似误差的敏感性要低一些。在后期阶段，处理过程调整聚类参数以减少近似误差。此外，聚类和近似不仅可以用于神经网络的输入，还可以用于网络隐藏层的激活映射。
ADR 的开发者慎熙鹏向 InfoQ 透露，发明 ADR 的想法源于长期远景。他们一直在试图找出冗余的计算并避免它们的发生。在此之前，他们尝试了很多方法。比如查看过滤器权重矩阵，它可以是稀疏矩阵，也就是说，其中的很多元素为 0。他们进行了探索，试图避免和 0 做乘法，但是很难。
他们还尝试了激活映射或输入。因为很多图像拥有大量相似或相同的像素点，经过调查现实世界的数据集，发现的确如此。接着证实在中间层上也是这样。基于这个结论，他们唯一要做的就是，如何有效地找到重用机会并转化为实际的时间节省。在他们找到解决方案后，自适应深度重用技术就这样诞生了。
而之所以选择 TensorFlow 来实现 ADR，是因为研究团队对这个流行框架更为熟悉。并且 TensorFlow 可以跨平台工作。
此外，该技术还适用于 RNN 或 Transformer 等其他深度神经网络架构，慎熙鹏告诉记者，ADR 已经证明其有可能用于嵌入式设备，如物联网。他们还讨论过在LSTM上使用它，但是还未通过实验对它的好处做定量判断。慎熙鹏还表示，他们的目标是把 ADR 推广到其他网络。
论文链接：ICDE 2019 网站
原文链接：Xipeng Shen on a New Technique to Reduce Deep-Learning Training Time

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

全部留言(1)

最新
精选

杰之7
这样做的过程是减少了相似数据集的计算,在海量计算中,对效率有会提升,如果能保证准确性不变甚至更好,会拥有更好的价值体现。



收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部