123 | 计算机视觉领域的深度学习模型（三）：ResNet

洪亮劼



该思维导图由 AI 生成，仅供参考

今天我们继续来讨论经典的深度学习模型在计算机视觉领域应用。今天和你分享的论文是《用于图像识别的深度残差学习》（Deep Residual Learning for Image Recognition）[1]。这篇论文获得了 CVPR 2016 的最佳论文，在发表之后的两年间里获得了超过 1 万 2 千次的论文引用。
论文的主要贡献我们前面介绍 VGG 和 GoogleNet 的时候就已经提到过，在深度学习模型的前进道路上，一个重要的研究课题就是神经网络结构究竟能够搭建多深。
这个课题要从两个方面来看：第一个是现实层面，那就是如何构建更深的网络，如何能够训练更深的网络，以及如何才能展示出更深网络的更好性能；第二个是理论层面，那就是如何真正把网络深度，或者说是层次度，以及网络的宽度和模型整体的泛化性能直接联系起来。
在很长的一段时间里，研究人员对神经网络结构有一个大胆的预测，那就是更深的网络架构能够带来更好的泛化能力。但是要想真正实现这样的结果其实并不容易，我们都会遇到哪些挑战呢？
一个长期的挑战就是模型训练时的梯度“爆炸”（Exploding）或者“消失”（Vanishing）。为了解决这个问题，在深度学习研究刚刚开始的一段时间，就如雨后春笋般爆发出了很多技术手段，比如“线性整流函数”（ReLu），“批量归一化”（Batch Normalization），“预先训练”（Pre-Training）等等。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

ResNet，即深度残差学习网络，是一篇经典的深度学习论文，提出了一种能够搭建极深神经网络结构的方法。该论文通过引入残差学习的概念，克服了深度神经网络训练中的梯度“爆炸”或“消失”等问题，实现了超过百层的网络结构。其核心思想是通过逼近输入与输出之间的残差，而不是直接逼近目标函数，从而使得网络能够更有效地学习到“等值映射”，提高了网络的泛化能力。ResNet的提出突破了深度学习模型层次的瓶颈，显著降低了图像识别的错误率，为深度学习领域带来了重大突破。该论文的贡献在于提出了一种新的网络结构，为深度学习模型的发展开辟了新的道路。通过对网络结构的创新，ResNet成功实现了超过百层的深度，同时保持了较低的错误率，为深度学习模型的发展提供了重要的启示。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(4)

最新
精选

Andy
老师为什么层数多了之后就不用dropout了呢？
2018-09-15

2
sky
我还有个大胆地猜想，在几何领域，有保角映射和等距离映射这样的反应几何特性的映射，如果我想要神经网络提高对这些特征的识别，是否可以把输入做保角映射或者等距离映射，然后作为残差网络的捷径
2018-09-12
2
1
sky
我能不能这样理解，resnet的捷径其实就是给网络加了一个线性因子，resnet其实就是线性和非线性的组合达到了这样的效果，其实我还是不太明白作者为什么回想到用去逼近残差，逼近残差在其他地方有类似的应用吗
2018-09-12

1
皮特尔
不止层数越来越多，网络架构越来越复杂了，比如GoogleNet新增了平行层，ResNet新增了捷径
2020-06-05



收起评论