ICCV（International Conference on Computer Vision，国际计算机视觉大会），是每两年举办一次的计算机视觉顶级会议。从 1987 年开始举办，已经有 30 年的历史。2017 年的 ICCV 大会于 10 月 22 日至 29 日在意大利的水城威尼斯举行。
在每届 ICCV 大会上，都会从众多学术论文中挑选出两篇最有新意和价值的论文作为最佳研究论文和最佳学生论文。ICCV 的最佳论文奖又叫作“马尔奖项”（Marr Prize），是为了纪念英国的心理学家和神经科学家大卫·马尔（David Marr）而设计的奖项。马尔将心理学、人工智能和神经生理学的研究成果结合起来，提出了全新的关于视觉处理的理论，他被认为是计算神经科学的创始人。
今天，我就来带你认真剖析一下 ICCV 2017 年的最佳研究论文“Mask R-CNN”。这篇论文是一个集大成的工作，介绍了一个新的方法可以用于同时解决图像的“物体识别”（Object Detection）、“语义分割”（Semantic Segmentation）和“数据点分割”（Instance Segmentation）的工作。
什么意思呢？通俗地讲，那就是给定一个输入的图像，利用这篇论文提出的模型可以分析这个图像里究竟有哪些物体，比如是一只猫，还是一条狗；同时能够定位这些物体在整个图像中的位置；并且还能针对图像中的每一个像素，知道其属于哪一个物体，也就是我们经常所说的，把物体从图像中“抠”出来。
作者群信息介绍这篇论文的作者全部来自 Facebook 的人工智能研究院（Facebook AI Research）。
第一作者就是近几年在计算机视觉领域升起的学术之星何恺明博士（Kaiming He）。他于 2016 年加入 Facebook 人工智能研究院，之前在微软亚洲研究院进行计算机视觉的研究工作；他还是 CVPR 2016 年和 CVPR 2009 年的最佳论文得主。目前，何恺明在计算机视觉领域有三项重大贡献。
第一，他与其他合作者发明的 ResNet 从 2016 年以来成为了计算机视觉深度学习架构中的重要力量，被应用到了计算机视觉以外的一些领域，比如机器翻译和 AlphaGo 等，相关论文引用数超过 5 千次。
第二，他与其他合作者开发的 Faster R-CNN 技术，发表于 NIPS 2015 上，是图像物体识别和语义分析的重要技术手段，也是今天我们要讨论的这篇论文的基础，论文引用数超过 2 千次。
第三，他与其他合作者在 ICCV 2015 年发表论文《深入研究整流器：在 ImageNet 分类上超越人类水平》（Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification），研究了一种改进的 ReLU（Rectified Linear Unit，线性整流函数，又称修正线性单元）结构从而达到了更好的效果，论文引用数近 2 千次。
第二作者乔治亚⋅吉克里奥夏里（Georgia Gkioxari）目前是 Facebook 人工智能研究院的博士后研究员。乔治亚可以说是师出名门，在 Facebook 工作之前才从加州大学伯克利毕业，师从计算机视觉泰斗吉腾德拉⋅马利克（Jitendra Malik）。乔治亚之前还分别在谷歌大脑和谷歌研究院实习过。在过去几年中，乔治亚在计算机视觉界已经发表了多篇高质量论文。
第三作者皮奥特⋅多拉（Piotr Dollár）是 Facebook 人工智能研究院的一名经理。2007 年从加州大学圣地亚哥分校获得博士学位，2014 年加入 Facebook，这之前在微软研究院工作。皮奥特长期从事计算机视觉的研究工作。
最后一个作者罗斯⋅吉尔什克（Ross Girshick）是 Facebook 人工智能研究院的一名科学家。他于 2012 年毕业于芝加哥大学，获得计算机博士。罗斯之前也在微软研究院工作，也曾在计算机视觉泰斗吉腾德拉的实验室里担任博士后的研究工作。
论文的主要贡献我们首先来看一下这篇文章的主要贡献。还是要先去理解，这篇文章主要解决的是一个什么场景下的问题。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

ICCV 2017年最佳研究论文“Mask R-CNN”是一篇由Facebook AI Research的何恺明等人提出的重要工作。该论文提出了一种新的深度学习网络结构，能够同时解决图像的“物体识别”、“语义分割”和“数据点分割”任务，即在图像中识别物体、定位物体位置，并将每个像素与相应的物体关联。这一创新扩展了先前的“Faster R-CNN”模型，为数据点分割任务提出了新的解决方案。Mask R-CNN不仅在标准数据集COCO上表现出色，击败了之前的模型，还能轻松扩展到其他任务，如“人体形态估计”，奠定了其作为普适性框架的地位。 Mask R-CNN的核心方法是在Faster R-CNN的基础上进行改进和延伸。它通过区域提交网络提出可能存在的候选矩形框，并使用RoIPool技术提取特征进行标签分类和矩形框位置定位。与Faster R-CNN不同的是，Mask R-CNN在第二部分输出区域的类别和框的相对位置的同时，还输出具体的像素分割，且这三个任务是独立的，没有互相的依赖。作者们还提出了RoIAlign技术来保证中间提取的特征能够反映在最原始的像素中。在实验效果方面，作者们使用Mask R-CNN在COCO 2015和COCO 2016数据集上进行检测，结果显示Mask R-CNN的精度大幅增加，比之前的最佳结果好了近13%和4%。作者们还测试了整个Mask R-CNN中每一个部件的效果，证明了这些模型组件是优秀结果的必要步骤。总之，Mask R-CNN的出现填补了物体检测领域的空白，为图像物体识别领域带来了重大突破。其独立的像素分割、类别判断和位置预测任务的设计以及在实验中取得的显著效果，使其成为计算机视觉领域的重要研究成果。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

林彦
第一步先分析一个大的矩形框，第二步进行物体检测。因为要打标签，第二步肯定是需要的。因为最终目标是物体检测，为了检测中图片中是否有物体，是什么物体。先把完整包含物体可能性最大的区域框出来，然后做里面的物体分类。第一步也是必须的。可以看成是最初CNN图片分类的升级，也更接近我们人类对于复杂图片中的物体识别方法。
2018-01-24

4

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部