谷歌大脑:简单初始化 训练1万层CNN
极客时间编辑部
讲述:丁婵大小:1.26M时长:02:45
最近,谷歌大脑研究人员在发表的论文《CNN 动态等距和平均场论》中,对 CNN 的可训练性,以及信号在卷积网络中的传输特点进行了研究,提出了一种简单的初始化策略,不需要使用残差连接或批标准化(Batch Normalization),就能训练 1 万层的原始 CNN。
他们发现,卷积核在空间上的分布情况扮演了很重要的角色,当使用在空间上均匀分布的卷积核对 CNN 做初始化时,CNN 在深度上会表现得像全连接层;而使用在空间上不均匀分布的卷积核时,信号在深度网络中就表现出了多种传输模式。
基于这一观察,他们提出了一个简单的初始化策略,能够训练 1 万层乃至更深的原始 CNN 结构,这项工作清除了在训练任意深度的原始卷积网络时,存在的所有主要障碍。
研究人员表示,他们的这项工作提供了对残差连接、批标准化等实践方法的理论理解。残差连接和批标准化这些结构上的特征,可能在定义好的模型类(model class)中有着重要的作用,而不是仅仅简单地能够提高训练的效率。
这个初始化方案,是一个生成随机正交卷积核的算法,目的是为了实现动态等距(dynamical isometry)。实际上,深度学习是建立在这样一个观察之上的,也就是无监督的预训练可以为随后通过反向传播进行的微调,提供一组好的初始权重。
通过对深度线性网络学习进行理论分析后,可以发现,满足了动态等距的权重初始化能够大大提高学习速度。对于这样的线性网络,正交权重初始化实现了动态等距,并且它们的学习时间(以学习轮数的数量来衡量)变得与深度无关。
现在,最新的这项研究发现,在卷积神经网络中也存在类似的情况。作者将要传播的信号分解为独立的傅里叶模式,促进这些信号进行均匀的传播。由此证明了可以比较容易地训练 1 万层或更多的原始 CNN。
这些观察结果表明,残差连接和批标准化这些结构上的特征,可能在定义好的模型类(model class)中有着重要的作用,而不是简单地提高训练的效率。
谷歌大脑表示,这一发现对深度学习研究社区有着重大的意义。不用批标准化,也不用残差连接,仅仅通过一个初始化函数,就训练 1 万层的原始 CNN。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论