AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

009 | 如何将“深度强化学习”应用到视觉问答系统?

长期从事人工智能特别是视觉系统以及人机交互系统的研究工作
Facebook研究院的科学家
长期从事计算机视觉、自然语言处理等多方面的研究
乔治亚理工大学的研究科学家
信号处理和大数据、数据科学的研究工作
美国工程院院士和IEEE院士
在多个国际顶级会议发表了多篇高质量研究论文
研究领域为计算机视觉、自然语言和机器学习
卡内基梅隆大学博士第四年
获得了Adobe的研究奖学金和Snapchat的研究奖学金
曾在Facebook人工智能研究院实习
在读博士生
回顾了作者群信息、问题和贡献、方法核心内容
介绍了如何利用深度强化学习来搭建一个模型去理解两个机器人的对话并能够理解图像信息
从图像提取的角度来讲,强化学习的效果比监督学习好
强化学习能够产生和真实对话相近的对话效果
在VisDial数据集上进行实验
使用了REINFORCE算法对模型的参数进行估计
模型的“动作”、“状态”、“策略”、“环境”和“回馈”
定义了强化学习的一些构件
提出的解决方案极大地提高了准确度
首次利用深度强化学习对这样一个系统进行建模
建立了一个虚拟“游戏”基础上的协作性的视觉对话系统
德鲁·巴塔
斯特凡·李
何塞·毛拉
萨特维克·库托儿
阿布谢克·达斯
作者:阿布谢克·达斯,萨特维克·库托儿,何塞·毛拉,斯特凡·李,德鲁·巴塔
标题:如何将“深度强化学习”应用到视觉问答系统?
小结
方法的实验效果
论文的核心方法
论文的主要贡献
作者群信息介绍
参考文章
论文《使用深度强化学习研究协作性视觉对话机器人》

该思维导图由 AI 生成,仅供参考

本周我们一起来剖析 ICCV 2017 的论文,周一和周三分别讲了最佳研究论文和最佳学生论文。今天,我们来分享一篇完全不同的文章,题目是《使用深度强化学习研究协作性视觉对话机器人》(Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning),讲的是如何通过“深度强化学习”来解决视觉问答系统。

作者群信息介绍

第一作者阿布谢克·达斯(Abhishek Das)是一名来自佐治亚理工大学的在读博士生。他于 2017 年和 2018 年在 Facebook 人工智能研究院实习,已经获得了 Adobe 的研究奖学金和 Snapchat 的研究奖学金,可以说是一名非常卓越的博士生。之前在智能系统,特别是在利用强化学习研究智能机器人会话系统的领域已经发表了多篇论文。
共同第一作者萨特维克·库托儿(Satwik Kottur)来自卡内基梅隆大学,博士第四年,研究领域为计算机视觉、自然语言和机器学习。2016 年暑假他在 Snapchat 的研究团队实习,研究对话系统中的个性化问题。2017 年暑假在 Facebook 研究院实习,研究视觉对话系统。近两年,萨特维克已在多个国际顶级会议如 ICCV 2017、ICML 2017、IJCAI 2017、CVPR 2017、NIPS 2017 以及 EMNLP 2017 发表了多篇高质量研究论文,可以说是一颗冉冉升起的学术新星。
第三作者何塞·毛拉(José M. F. Moura)是萨特维克在卡内基梅隆大学的导师。何塞是美国工程院院士和 IEEE 院士,长期从事信号处理以及大数据、数据科学的研究工作。他当选 2018 年 IEEE 总裁,负责 IEEE 下一个阶段的发展。
第四作者斯特凡·李(Stefan Lee)是来自乔治亚理工大学的研究科学家,之前在弗吉尼亚理工大学任职,长期从事计算机视觉、自然语言处理等多方面的研究。斯特凡 2016 年博士毕业于印第安纳大学计算机系。
第五作者德鲁·巴塔(Dhruv Batra)目前是 Facebook 研究院的科学家,也是乔治亚理工大学的助理教授。德鲁 2010 年博士毕业于卡内基梅隆大学;2010 年到 2012 年在位于芝加哥的丰田理工大学担任研究助理教授;2013 年到 2016 年在弗吉尼亚大学任教。德鲁长期从事人工智能特别是视觉系统以及人机交互系统的研究工作。文章的第四作者斯特凡是德鲁长期的研究合作者,他们一起已经发表了包括本文在内的多篇高质量论文。

论文的主要贡献

我们首先来看一下这篇文章的主要贡献,理解这篇文章主要解决了什么场景下的问题。
这篇论文是建立在这么一个虚拟“游戏”(Game)的基础上的。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

使用深度强化学习研究协作性视觉对话机器人 这篇论文介绍了如何利用深度强化学习来构建一个模型,以解决视觉对话系统中的问题。作者团队建立了一个虚拟“游戏”,通过两个机器人的协作来解决视觉对话系统的挑战。他们利用深度强化学习模型对系统进行建模,并提出的解决方案极大地提高了准确度。论文详细解释了模型的动作、状态、策略以及环境和回馈,并介绍了模型策略神经网络的架构和采用的REINFORCE算法。实验结果显示,深度强化学习能够产生和真实对话相近的对话效果,为解决视觉对话系统问题提供了显著的效果。这项研究为相关领域的研究和应用提供了有益的参考。 这篇文章的亮点在于介绍了如何利用深度强化学习来解决视觉对话系统的问题,通过建立虚拟“游戏”来模拟机器人的协作,并提出了一种有效的解决方案。该研究为深度强化学习在视觉对话系统中的应用提供了新的思路和方法,对于对话场景中的难点进行了有益的探索。 通过这篇文章,读者可以了解到深度强化学习在视觉对话系统中的潜在应用价值,以及作者团队在这一领域的研究成果和方法。这对于对话系统和深度学习领域的研究者和从业者具有一定的参考意义,也为相关领域的未来研究提供了新的思路和方向。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 林彦
    强化学习里累积奖赏的状态-动作值函数如何获得。对话后对状态的改变和后续动作的选择造成图像与推测的差距缩小或放大,差距的改变,特别是改变的值范围很大时,如何转换成合适数值的奖赏,期望有相应的理论支持。
    2018-01-28
    3
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部