DeepMind提出生成查询网络GQN
极客时间编辑部
讲述:杜力大小:1.05M时长:02:19
近日,在 DeepMind 发表在顶级期刊 Science 的论文中,提出了生成查询网络 GQN(Generative Query Network)的框架,它可以从一些 2D 快照中构建出 3D 场景,并可以通过任何新的视角,不断增强这一场景表示。
在理解视觉场景的时候,人们依赖的不仅仅是眼睛,还需要大脑利用已有的知识来推理,并做出推论。例如,如果你看到一张桌子的三条腿,你就会推断出,可能还有第四条腿,形状和颜色相同,只不过在视线之外。
这种视觉和认知任务对于人类来说似乎毫不费力,但是对于人工智能系统来说,却是一个重大的挑战。
在这项发表在 Science 的研究中,DeepMind 引入了 GQN,其中机器通过到处走动,并且仅由它们自己获取的数据,来感知周围的环境。该行为和婴儿、动物很相似,GQN 尝试观察周围的世界并进行理解和学习。
据介绍,GQN 模型由两个部分构成:一个表征网络,以及一个生成网络。表征网络将智能体的观察作为输入,并生成一个描述潜在场景的表征(向量)。然后生成网络从之前未观察过的视角来预测(想象)该场景。
研究人员在模拟 3D 的世界里,通过一组由程序生成的环境,对 GQN 进行了受控实验,这些环境包含随机位置、颜色、形状和纹理等多个目标。在这些环境下训练后,使用 GQN 的表征网络来生成新视角下的场景表征。
结果表明,GQN 的生成网络可以从新的视角下,非常精确地构建出以前未见过视角下的场景。并且可以学习计数、定位和分类目标,不需要任何目标级的标注。
可以说,GQN 建立在大量多视角的几何研究、生成式建模、无监督学习和预测学习的基础上,它展示了一种学习物理场景的紧凑、直观表征的全新方式。重要的是,使得同一模型能够应用到大量不同的环境中。
DeepMind 认为,相比于更多传统的计算机视觉技术,他们的方法还有许多缺陷,目前也只是在合成场景下训练工作的。然而,随着新数据资源的产生、硬件能力的发展,DeepMind 希望将 GQN 应用到更高分辨率的真实场景图像的研究中。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论