在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下，近日，纽约大学联合谷歌大脑开发了一个人工的、可配置的视觉问题和答案数据集 COG，用于在人类和动物中进行平行实验。
COG 比视频分析的一般问题要简单得多，但它解决了许多与视觉、逻辑推理和记忆有关的问题，这些问题对现代的深度学习架构来说仍然具有挑战性。
据介绍，COG 数据集基于一种编程语言，该语言构建了一系列任务三元组，包括一个图像序列、一个语言指令和一系列正确的答案。这些随机生成的三元组在大量任务中进行视觉推理，并需要文本的语义理解、序列中每个图像的视觉感知以及工作记忆，从而确定随时间不同变化的答案。纽约大学和谷歌大脑对编程语言中的若干个参数进行了强调，从而使研究人员能够将问题难度按照从易到难的顺序进行设置调整。
此外，他们还提出了一个深度学习架构，它在其他诊断 VQA 数据集（例如 CLEVR）和 COG 数据集的简单设置上表现得非常出色。然而，一些 COG 的设置会导致数据集变得越来越难以进行学习，这些数据集突出显示了当前方法所存在的若干局限性。
首先，在 VQA 数据集上进行训练的模型的训练程度无法确定，仅仅是遵循图像中固有的统计信息，而不是对问题的逻辑组成部分进行推理。其次，这些数据集避免了时间和记忆的复杂性，而这两个因素在智能体设计、视频的分析和总结中都具有至关重要的作用。
为了解决 VQA 数据集中存在的不足，约翰逊（Johnson）及其同事提出，使用 CLEVR 直接对基本视觉推理模型进行测试，以便与其他 VQA 数据集一起使用。CLEVR 数据集提供了人工的、静态的图像以及有关这些图像的自然语言问题，从而锻炼模型执行逻辑和视觉推理的能力。最近的研究结果表明，网络以接近完美的精确度取得了令人印象深刻的性能表现成绩。
另外，他们还引入了一个多模态循环体系结构，用于进行记忆视觉推理。该网络将语义和视觉模块与状态控制器相结合，对视觉注意力和记忆进行调节，以便正确地执行视觉任务。
经过一系列的研究，证明了这个模型在 CLEVR 数据集上达到了近乎最先进的性能表现。此外，该网络还提供了一个强大的基线，可以在一系列设置中的 COG 数据集上实现良好的性能表现。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部