纽约大学联合谷歌大脑提出COG数据集
极客时间编辑部
讲述:丁婵大小:1.35M时长:02:56
在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下,近日,纽约大学联合谷歌大脑开发了一个人工的、可配置的视觉问题和答案数据集 COG,用于在人类和动物中进行平行实验。
COG 比视频分析的一般问题要简单得多,但它解决了许多与视觉、逻辑推理和记忆有关的问题,这些问题对现代的深度学习架构来说仍然具有挑战性。
据介绍,COG 数据集基于一种编程语言,该语言构建了一系列任务三元组,包括一个图像序列、一个语言指令和一系列正确的答案。这些随机生成的三元组在大量任务中进行视觉推理,并需要文本的语义理解、序列中每个图像的视觉感知以及工作记忆,从而确定随时间不同变化的答案。纽约大学和谷歌大脑对编程语言中的若干个参数进行了强调,从而使研究人员能够将问题难度按照从易到难的顺序进行设置调整。
此外,他们还提出了一个深度学习架构,它在其他诊断 VQA 数据集(例如 CLEVR)和 COG 数据集的简单设置上表现得非常出色。然而,一些 COG 的设置会导致数据集变得越来越难以进行学习,这些数据集突出显示了当前方法所存在的若干局限性。
首先,在 VQA 数据集上进行训练的模型的训练程度无法确定,仅仅是遵循图像中固有的统计信息,而不是对问题的逻辑组成部分进行推理。其次,这些数据集避免了时间和记忆的复杂性,而这两个因素在智能体设计、视频的分析和总结中都具有至关重要的作用。
为了解决 VQA 数据集中存在的不足,约翰逊(Johnson)及其同事提出,使用 CLEVR 直接对基本视觉推理模型进行测试,以便与其他 VQA 数据集一起使用。CLEVR 数据集提供了人工的、静态的图像以及有关这些图像的自然语言问题,从而锻炼模型执行逻辑和视觉推理的能力。最近的研究结果表明,网络以接近完美的精确度取得了令人印象深刻的性能表现成绩。
另外,他们还引入了一个多模态循环体系结构,用于进行记忆视觉推理。该网络将语义和视觉模块与状态控制器相结合,对视觉注意力和记忆进行调节,以便正确地执行视觉任务。
经过一系列的研究,证明了这个模型在 CLEVR 数据集上达到了近乎最先进的性能表现。此外,该网络还提供了一个强大的基线,可以在一系列设置中的 COG 数据集上实现良好的性能表现。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论