009 | 如何将“深度强化学习”应用到视觉问答系统？

洪亮劼



该思维导图由 AI 生成，仅供参考

本周我们一起来剖析 ICCV 2017 的论文，周一和周三分别讲了最佳研究论文和最佳学生论文。今天，我们来分享一篇完全不同的文章，题目是《使用深度强化学习研究协作性视觉对话机器人》（Learning  Cooperative Visual Dialog Agents with Deep Reinforcement Learning），讲的是如何通过“深度强化学习”来解决视觉问答系统。
作者群信息介绍第一作者阿布谢克·达斯（Abhishek Das）是一名来自佐治亚理工大学的在读博士生。他于 2017 年和 2018 年在 Facebook 人工智能研究院实习，已经获得了 Adobe 的研究奖学金和 Snapchat 的研究奖学金，可以说是一名非常卓越的博士生。之前在智能系统，特别是在利用强化学习研究智能机器人会话系统的领域已经发表了多篇论文。
共同第一作者萨特维克·库托儿（Satwik Kottur）来自卡内基梅隆大学，博士第四年，研究领域为计算机视觉、自然语言和机器学习。2016 年暑假他在 Snapchat 的研究团队实习，研究对话系统中的个性化问题。2017 年暑假在 Facebook 研究院实习，研究视觉对话系统。近两年，萨特维克已在多个国际顶级会议如 ICCV 2017、ICML 2017、IJCAI 2017、CVPR 2017、NIPS 2017 以及 EMNLP 2017 发表了多篇高质量研究论文，可以说是一颗冉冉升起的学术新星。
第三作者何塞·毛拉（José M. F. Moura）是萨特维克在卡内基梅隆大学的导师。何塞是美国工程院院士和 IEEE 院士，长期从事信号处理以及大数据、数据科学的研究工作。他当选 2018 年 IEEE 总裁，负责 IEEE 下一个阶段的发展。
第四作者斯特凡·李（Stefan Lee）是来自乔治亚理工大学的研究科学家，之前在弗吉尼亚理工大学任职，长期从事计算机视觉、自然语言处理等多方面的研究。斯特凡 2016 年博士毕业于印第安纳大学计算机系。
第五作者德鲁·巴塔（Dhruv Batra）目前是 Facebook 研究院的科学家，也是乔治亚理工大学的助理教授。德鲁 2010 年博士毕业于卡内基梅隆大学；2010 年到 2012 年在位于芝加哥的丰田理工大学担任研究助理教授；2013 年到 2016 年在弗吉尼亚大学任教。德鲁长期从事人工智能特别是视觉系统以及人机交互系统的研究工作。文章的第四作者斯特凡是德鲁长期的研究合作者，他们一起已经发表了包括本文在内的多篇高质量论文。
论文的主要贡献我们首先来看一下这篇文章的主要贡献，理解这篇文章主要解决了什么场景下的问题。
这篇论文是建立在这么一个虚拟“游戏”（Game）的基础上的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

使用深度强化学习研究协作性视觉对话机器人这篇论文介绍了如何利用深度强化学习来构建一个模型，以解决视觉对话系统中的问题。作者团队建立了一个虚拟“游戏”，通过两个机器人的协作来解决视觉对话系统的挑战。他们利用深度强化学习模型对系统进行建模，并提出的解决方案极大地提高了准确度。论文详细解释了模型的动作、状态、策略以及环境和回馈，并介绍了模型策略神经网络的架构和采用的REINFORCE算法。实验结果显示，深度强化学习能够产生和真实对话相近的对话效果，为解决视觉对话系统问题提供了显著的效果。这项研究为相关领域的研究和应用提供了有益的参考。这篇文章的亮点在于介绍了如何利用深度强化学习来解决视觉对话系统的问题，通过建立虚拟“游戏”来模拟机器人的协作，并提出了一种有效的解决方案。该研究为深度强化学习在视觉对话系统中的应用提供了新的思路和方法，对于对话场景中的难点进行了有益的探索。通过这篇文章，读者可以了解到深度强化学习在视觉对话系统中的潜在应用价值，以及作者团队在这一领域的研究成果和方法。这对于对话系统和深度学习领域的研究者和从业者具有一定的参考意义，也为相关领域的未来研究提供了新的思路和方向。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

林彦
强化学习里累积奖赏的状态-动作值函数如何获得。对话后对状态的改变和后续动作的选择造成图像与推测的差距缩小或放大，差距的改变，特别是改变的值范围很大时，如何转换成合适数值的奖赏，期望有相应的理论支持。
2018-01-28

3

收起评论