124 | 计算机视觉高级话题(一):图像物体识别和分割
洪亮劼
该思维导图由 AI 生成,仅供参考
从今天开始,我们讨论几个相对比较高级的计算机视觉话题。这些话题都不是简单的分类或者回归任务,而是需要在一些现有的模型上进行改进。
我们聊的第一个话题就是图像中的物体识别(Object Recognition)和分割(Segmentation)。我们前面介绍过物体识别和分割。通俗地讲,就是给定一个输入的图像,我们希望模型可以分析这个图像里究竟有哪些物体,并能够定位这些物体在整个图像中的位置,对于图像中的每一个像素,能够分析其属于哪一个物体。
这一类型任务的目的是更加仔细地理解图像中的物体,包括图片分类、对图像里面的物体位置进行分析,以及在像素级别进行分割,这无疑是一个充满挑战的任务。
R-CNN
深度模型,特别是卷积神经网络(CNN)在 AlexNet 中的成功应用,很大程度上开启了神经网络在图像分类问题上的应用。这之后,不少学者就开始考虑把这样的思想利用到物体识别上。第一个比较成功的早期工作来自加州大学伯克利分校[1],这就是我们接下来要介绍的 R-CNN 模型。
首先,R-CNN 的输入是一个图片,输出是一个“选定框”(Bounding Box)和对应的标签。R-CNN 采用了一种直观的方法来生成选定框:尽可能多地生成选定框,然后来看究竟哪一个选定框对应了一个物体。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
深度学习模型在图像物体识别和分割领域取得了重大进展。从最早的R-CNN到Fast R-CNN、Faster R-CNN和Mask R-CNN,这些模型不断演进,提高了物体识别和分割的准确性和效率。R-CNN模型通过多个步骤进行物体识别,虽然有效但较为繁琐。Fast R-CNN通过共享特征提取网络和优化选定框提取过程,显著提高了训练速度。Faster R-CNN在提出待定选定框的过程上做了进一步改进,使得速度更快。而Mask R-CNN不仅能进行物体判别,还能进行像素级的抽取,进一步提高了分割的精度。这些模型的发展为计算机视觉领域带来了新的思路和方法,为读者提供了深度学习在图像物体识别和分割方面的重要进展。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- Mick化繁为简,把一个任务最终分成几个相对独立的任务2022-06-09
- 皮特尔每一个新模型都在现有模型的基础上改进而成,应了牛顿的那句话:站在巨人的肩膀上。2020-06-06
收起评论