AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

124 | 计算机视觉高级话题(一):图像物体识别和分割

像素分割
框的相对位置
区域的类别
物体检测网络
候选区域
任务考虑
移动小窗口
图像特征层
输出
区域提交网络
像素级的抽取
不依赖单独步骤
进一步加速
训练时间快
共享特征提取
观察到问题
线性回归微调
支持向量机
特征提取
生成选定框
输入图片
Mask R-CNN
Faster R-CNN
Fast R-CNN
R-CNN
物体识别和分割技术
计算机视觉高级话题

该思维导图由 AI 生成,仅供参考

从今天开始,我们讨论几个相对比较高级的计算机视觉话题。这些话题都不是简单的分类或者回归任务,而是需要在一些现有的模型上进行改进。
我们聊的第一个话题就是图像中的物体识别(Object Recognition)和分割(Segmentation)。我们前面介绍过物体识别和分割。通俗地讲,就是给定一个输入的图像,我们希望模型可以分析这个图像里究竟有哪些物体,并能够定位这些物体在整个图像中的位置,对于图像中的每一个像素,能够分析其属于哪一个物体。
这一类型任务的目的是更加仔细地理解图像中的物体,包括图片分类、对图像里面的物体位置进行分析,以及在像素级别进行分割,这无疑是一个充满挑战的任务。

R-CNN

深度模型,特别是卷积神经网络(CNN)在 AlexNet 中的成功应用,很大程度上开启了神经网络在图像分类问题上的应用。这之后,不少学者就开始考虑把这样的思想利用到物体识别上。第一个比较成功的早期工作来自加州大学伯克利分校[1],这就是我们接下来要介绍的 R-CNN 模型
首先,R-CNN 的输入是一个图片,输出是一个“选定框”(Bounding Box)和对应的标签。R-CNN 采用了一种直观的方法来生成选定框:尽可能多地生成选定框,然后来看究竟哪一个选定框对应了一个物体。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

深度学习模型在图像物体识别和分割领域取得了重大进展。从最早的R-CNN到Fast R-CNN、Faster R-CNN和Mask R-CNN,这些模型不断演进,提高了物体识别和分割的准确性和效率。R-CNN模型通过多个步骤进行物体识别,虽然有效但较为繁琐。Fast R-CNN通过共享特征提取网络和优化选定框提取过程,显著提高了训练速度。Faster R-CNN在提出待定选定框的过程上做了进一步改进,使得速度更快。而Mask R-CNN不仅能进行物体判别,还能进行像素级的抽取,进一步提高了分割的精度。这些模型的发展为计算机视觉领域带来了新的思路和方法,为读者提供了深度学习在图像物体识别和分割方面的重要进展。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • Mick
    化繁为简,把一个任务最终分成几个相对独立的任务
    2022-06-09
  • 皮特尔
    每一个新模型都在现有模型的基础上改进而成,应了牛顿的那句话:站在巨人的肩膀上。
    2020-06-06
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部