17 | 图像分类(上):图像分类原理与图像分类模型
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了图像分类的原理和模型,包括感知机和全连接层的结构,以及卷积神经网络的作用和重要性。文章详细介绍了VGG、GoogLeNet和ResNet等经典神经网络的突破点和重要性。通过对ImageNet的评选情况和经典网络结构的学习,读者可以快速抓住重点,深入了解图像分类的理论知识和实践应用。文章强调了掌握这些网络结构对深度学习未来的重要性,为读者提供了思考题,鼓励交流互动。整体而言,本文通过理论知识和实例展示,深入浅出地介绍了图像分类的原理和模型,对于想要深入了解图像分类的读者来说,是一篇很有价值的文章。
《PyTorch 深度学习实战》,新⼈⾸单¥59
全部留言(17)
- 最新
- 精选
- Hit黎明分明🎩老师 文中提到了TOP-5错误率 我在文章中也看到过 不过一直不理解是什么意思,想请教您
作者回复: hello,ImageNet一共1000个类别,所以模型对每张图片都会有1000个概率。 Top-1错误率是指如果预测的1000个概率中最大的概率对应的类别是正确的类别,那么就算模型预测正确。 Top-5错误率是指如果预测的1000个概率中前5大概率对应的类别包含正确的类别,那么就算模型预测正确。
2021-12-058 - 李雄老师关于VGG,GoogLeNet,以及ResNet的讲解简洁明了,尤其是ResNet的讲解,喜欢。
作者回复: hello,感谢你的认可^^。很高兴能与你一起学习进步。
2021-11-275 - 官NLP领域的话就是transformer,bert
作者回复: ^^ 👍🏻👍🏻
2021-11-204 - 坚持GoogLeNet网络结构明细表解析如下: 0、输入 原始输入图像为224x224x3,且都进行了零均值化的预处理操作(图像每个像素减去均值)。 1、第一层(卷积层) 使用7x7的卷积核(滑动步长2,padding为3),64通道,输出为112x112x64,卷积后进行ReLU操作 经过3x3的max pooling(步长为2),输出为((112 - 3+1)/2)+1=56,即56x56x64,再进行ReLU操作 2、第二层(卷积层) 使用3x3的卷积核(滑动步长为1,padding为1),192通道,输出为56x56x192,卷积后进行ReLU操作 经过3x3的max pooling(步长为2),输出为((56 - 3+1)/2)+1=28,即28x28x192,再进行ReLU操作 -----------------问题-------------- 请问老师,输入通道是RGB 3个通道是吧,那第一层的输入64个通道,第二层的输出192个通道,中间的这些通道和输入通道之间是什么样的关系?这64和192在网络中怎么理解
作者回复: 你好,坚持,感谢你的留言。 输入是RGB3个通道的特征图, 第一层(卷积层)有64个通道(这里说的不是很严谨,写成卷积核更好,我稍后改一下),也就是有64个卷积核,每个卷积核有三个通道。 这样与输入特征进行卷积之后,输出的特征图就有64个通道了。 第二层卷积层,有192个卷积核,每个卷积核有64个通道,与第一层卷积层输出的特征图进行卷积后,就会生成一个192个通道的特征图。
2022-04-2722 - 志翔(Mike)1x1卷积会降维 不明白 老师可以讲一下吗?谢谢
作者回复: 你好,Mike,感谢你的留言。 首先这里的维度是指特征的通道数。 举个例子, 降维就是输入特征图从3个通道降低为1个通道。升维则相反。 当输入特征有1个通道,输出特征也有一个通道的时候,1x1卷积就没有意义,因为就相当于乘了一个常数。 当输入特征有大于1个通道的时候,1x1就相当于对同一个位置上的像素在不同通道上做线性组合,从而控制特征的通道数,完成升维和降维
2022-04-242 - Matthew因为全连接层中的神经元的个数是固定的,所以说在有全连接层的网络中,输入图片是必须固定尺寸的。 老师,这句话没明白。比如文中是2个神经元,那么输入图片可以是128*128,也可以是256*256,只要在神经元里设置对应数量的参数就可以了吧?
作者回复: 当用128x128进行训练时,2个神经元的输入是a个特征。 预测的时候也必须用128x128进行预测,因为128x128的输入,经过特征提取进入全连接层前的特征数是a。 如果预测时,使用的是256x256进行预测,进入全连接层前的特征数是b,这样全连接层就会报错。 如果网络的最后不采用全连接而采用全卷积的话,就不会出现这个问题。
2023-03-05归属地:江苏 - qifeng.wang请问一下老师,输入 X 转换成 x1,x2,x3 .......xn 小 x1 是指的什么?我理解 X 是指一个三轴的三维数组。
作者回复: 你好,感谢你的留言。小x就是输入X中的元素。如果X是RGB图片的话,X是一个三轴的数组。
2022-09-01归属地:北京 - 你自信点会死啊老师好,我想问下接受任意尺度输入那里,最后输出的一层卷积的输出是一定要n个特征图,然后每个特征图求全局平均,因为全连接层的输入特征个数是n?是这个意思吗?
作者回复: 你好,感谢你的留言。 恩,是这样的。^^
2021-12-022 - F我只知道实验室他们在弄啥胶囊模型
作者回复: ^^ 👍🏻👍🏻,加油
2021-11-24 - 悠闲不自得YOLOV4
作者回复: 👍🏻👍🏻^^
2021-11-20