AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

125 | 计算机视觉高级话题(二):视觉问答

自动生成程序的特殊形式
神经编程
问题的单词、短语、整个提问三个层次建模
学习图片局部和问题的加权
学习图片的哪一部分负责回答
复杂的加权模式
预测回答
结合问题和图像
4096维度的图像表征
VGG网络
1000维度的输入表征
词包表达
1030维度的输入表征
词包表达
建模基本思路
视觉问答挑战
推理联系
层次同关注
关注机制
LSTM模型
图像特征提取
图片标题建模
问题建模
综合性的人工智能问题
对图片中物体的推理
对图片上下文的理解
对图片细节的理解
总结
建模
挑战
视觉问答

该思维导图由 AI 生成,仅供参考

今天,我们继续分享计算机视觉领域的高级话题,聊一聊“视觉问答”(Visual Question Answering)这个话题。
我们在前面曾经提到过“问答系统”(Question Answering),可以说这是人工智能领域最核心的问题之一。传统的问答系统主要是针对文字而言的,问题和答案都是以文字的形式表达的。当然,问答所针对的内容,有可能来自一个外在的知识库,例如维基百科。
我们今天要讨论的视觉问答,特别是“自由形式”(Free-Form)或者“开放形式”(Open Ended)的视觉问答,主要指的是根据一个图片进行自由的基于自然语言的问答。例如,我们可以问一个图片中是否存在一只猫;或者可以问图片里的天气是不是阴天等等。

视觉问答的挑战

那么,为什么视觉问答会在最近几年里得到很多学者的关注呢?我们有必要先来分析一下视觉问答所面临的挑战。
首先,视觉问答需要对图片中的细节加以理解。例如,我们问图片中的匹萨用了哪种奶酪,那就代表着我们的系统必须能够识别匹萨中的奶酪,而这往往意味着非常微观的一些细节的物体的识别。
其次,视觉问答还需要我们对图片的上下文进行理解。例如,我们可以问图片中有几辆自行车。这个问题其实不仅需要我们对图片中的自行车进行理解,还需要能够计数,这显然是一种更加复杂的理解任务。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

视觉问答是计算机视觉领域的一个热门话题,面临着诸多挑战。首先,它需要理解图片中的细节,如识别食物中的奶酪等微观物体。其次,对图片的上下文进行理解,如计数物体的数量,增加了复杂性。此外,还需要对图片中的物体进行推理,如对食物种类进行分类。除了纯图片输入外,数据集中的图片标题也提供了有用信息,降低了任务难度。针对这些挑战,研究者提出了多种建模方法,包括利用词包表达问题和图片标题,提取图片特征,以及利用LSTM结合问题和图像进行预测。近年来,关注机制被广泛应用于视觉问答模型中,其中层次同关注模型更进一步结合了问题和图片的关键词,提高了回答的准确度。最近的研究还将视觉问答与推理和神经编程联系起来,将回答问题变成自动生成程序的一种形式。总的来说,视觉问答是一个综合性的人工智能问题,研究者们正不断探索各种模型和方法来解决其中的挑战。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • sky
    我认为目前的瓶颈在于,当前的模型都只对图像中的物体进行建模,而没有对图像中模型之间的关系进行建模,而机器问答很重要的一点是了解物体之间的关系。目前感觉对图像中物体间的关系,不管是空间关系还是语义关系进行建模都非常地难。
    2018-09-19
    2
  • 皮特尔
    视觉问答的后两个挑战: 1. 对图片的上下文进行理解; 2. 对图片中的物体进行推理。 现在有比较好的实现吗?
    2020-06-06
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部