PyTorch 深度学习实战
方远
LINE China 数据科学家
10381 人已学习
新⼈⾸单¥59
登录后,你可以任选3讲全文学习
课程目录
已完结/共 32 讲
开篇词 (1讲)
PyTorch 深度学习实战
15
15
1.0x
00:00/00:00
登录|注册

17 | 图像分类(上):图像分类原理与图像分类模型

你好,我是方远,欢迎来到图像分类的学习。
通过前面的学习,我们已经掌握了 PyTorch 有关深度学习的不少知识。为了避免纸上谈兵,我们正式进入实战环节,分别从计算机视觉与自然语言处理这两个落地项目最多的深度学习应用展开,看看业界那些常见深度学习应用都是如何实现的。
完成这个模块的学习以后,我想你不仅仅会巩固之前学习的内容,还会进一步地落实到细分的领域去看待问题、解决问题。
说到计算机视觉,很常见的一种应用方向就是图像分类。关于图像分类,其实离我们并不遥远。你有没有发现,现在很多智能手机,照相的时候都会自动给照片内容打上标签。
举个例子,你看后面的截图,就是我用手机拍照的时候,手机自动对摄像头的内容进行了识别,打上了“多云”这个标签。
然后你会发现,手机还能根据识别到的内容,为你推荐一些美化的方案。那这是怎么做到的呢?其实这就是卷积神经网络最常用、最广泛且最基本的一个应用:图像分类。
今天咱们就来一探究竟,看看图像分类到底是怎么一回事。我会用两节课的篇幅,带你学习图像分类。这节课我们先学习理论知识,掌握图像分类原理和常见的卷积神经网络。下节课,我们再基于今天学到的原理,一块完成一个完整的图像分类项目实践。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了图像分类的原理和模型,包括感知机和全连接层的结构,以及卷积神经网络的作用和重要性。文章详细介绍了VGG、GoogLeNet和ResNet等经典神经网络的突破点和重要性。通过对ImageNet的评选情况和经典网络结构的学习,读者可以快速抓住重点,深入了解图像分类的理论知识和实践应用。文章强调了掌握这些网络结构对深度学习未来的重要性,为读者提供了思考题,鼓励交流互动。整体而言,本文通过理论知识和实例展示,深入浅出地介绍了图像分类的原理和模型,对于想要深入了解图像分类的读者来说,是一篇很有价值的文章。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《PyTorch 深度学习实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(17)

  • 最新
  • 精选
  • Hit黎明分明🎩
    老师 文中提到了TOP-5错误率 我在文章中也看到过 不过一直不理解是什么意思,想请教您

    作者回复: hello,ImageNet一共1000个类别,所以模型对每张图片都会有1000个概率。 Top-1错误率是指如果预测的1000个概率中最大的概率对应的类别是正确的类别,那么就算模型预测正确。 Top-5错误率是指如果预测的1000个概率中前5大概率对应的类别包含正确的类别,那么就算模型预测正确。

    2021-12-05
    8
  • 李雄
    老师关于VGG,GoogLeNet,以及ResNet的讲解简洁明了,尤其是ResNet的讲解,喜欢。

    作者回复: hello,感谢你的认可^^。很高兴能与你一起学习进步。

    2021-11-27
    5
  • NLP领域的话就是transformer,bert

    作者回复: ^^ 👍🏻👍🏻

    2021-11-20
    4
  • 坚持
    GoogLeNet网络结构明细表解析如下: 0、输入 原始输入图像为224x224x3,且都进行了零均值化的预处理操作(图像每个像素减去均值)。 1、第一层(卷积层) 使用7x7的卷积核(滑动步长2,padding为3),64通道,输出为112x112x64,卷积后进行ReLU操作 经过3x3的max pooling(步长为2),输出为((112 - 3+1)/2)+1=56,即56x56x64,再进行ReLU操作 2、第二层(卷积层) 使用3x3的卷积核(滑动步长为1,padding为1),192通道,输出为56x56x192,卷积后进行ReLU操作 经过3x3的max pooling(步长为2),输出为((56 - 3+1)/2)+1=28,即28x28x192,再进行ReLU操作 -----------------问题-------------- 请问老师,输入通道是RGB 3个通道是吧,那第一层的输入64个通道,第二层的输出192个通道,中间的这些通道和输入通道之间是什么样的关系?这64和192在网络中怎么理解

    作者回复: 你好,坚持,感谢你的留言。 输入是RGB3个通道的特征图, 第一层(卷积层)有64个通道(这里说的不是很严谨,写成卷积核更好,我稍后改一下),也就是有64个卷积核,每个卷积核有三个通道。 这样与输入特征进行卷积之后,输出的特征图就有64个通道了。 第二层卷积层,有192个卷积核,每个卷积核有64个通道,与第一层卷积层输出的特征图进行卷积后,就会生成一个192个通道的特征图。

    2022-04-27
    2
    2
  • 志翔(Mike)
    1x1卷积会降维 不明白 老师可以讲一下吗?谢谢

    作者回复: 你好,Mike,感谢你的留言。 首先这里的维度是指特征的通道数。 举个例子, 降维就是输入特征图从3个通道降低为1个通道。升维则相反。 当输入特征有1个通道,输出特征也有一个通道的时候,1x1卷积就没有意义,因为就相当于乘了一个常数。 当输入特征有大于1个通道的时候,1x1就相当于对同一个位置上的像素在不同通道上做线性组合,从而控制特征的通道数,完成升维和降维

    2022-04-24
    2
  • Matthew
    因为全连接层中的神经元的个数是固定的,所以说在有全连接层的网络中,输入图片是必须固定尺寸的。 老师,这句话没明白。比如文中是2个神经元,那么输入图片可以是128*128,也可以是256*256,只要在神经元里设置对应数量的参数就可以了吧?

    作者回复: 当用128x128进行训练时,2个神经元的输入是a个特征。 预测的时候也必须用128x128进行预测,因为128x128的输入,经过特征提取进入全连接层前的特征数是a。 如果预测时,使用的是256x256进行预测,进入全连接层前的特征数是b,这样全连接层就会报错。 如果网络的最后不采用全连接而采用全卷积的话,就不会出现这个问题。

    2023-03-05归属地:江苏
  • qifeng.wang
    请问一下老师,输入 X 转换成 x1,x2,x3 .......xn 小 x1 是指的什么?我理解 X 是指一个三轴的三维数组。

    作者回复: 你好,感谢你的留言。小x就是输入X中的元素。如果X是RGB图片的话,X是一个三轴的数组。

    2022-09-01归属地:北京
  • 你自信点会死啊
    老师好,我想问下接受任意尺度输入那里,最后输出的一层卷积的输出是一定要n个特征图,然后每个特征图求全局平均,因为全连接层的输入特征个数是n?是这个意思吗?

    作者回复: 你好,感谢你的留言。 恩,是这样的。^^

    2021-12-02
    2
  • F
    我只知道实验室他们在弄啥胶囊模型

    作者回复: ^^ 👍🏻👍🏻,加油

    2021-11-24
  • 悠闲不自得
    YOLOV4

    作者回复: 👍🏻👍🏻^^

    2021-11-20
收起评论
显示
设置
留言
17
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部