日前，2017 未来科学大奖颁奖典礼暨未来论坛年会在京举办。在计算机科学人工智能研讨会上，斯坦福大学终身教授、谷歌云首席科学家李飞飞称，目前已经可以通过图像识别技术将图像“变”短句，这已经与认知心理学实验结果“非常接近”。
在李飞飞看来，视觉是人类发展的重要基石，在过去的几亿年中，不同生物的视觉系统不断发展，至今已经成为人类大脑中最复杂的系统。在计算机识别领域，视觉系统同样是重要的研究领域，各国专家在视觉识别方面发明了众多技术，近 8 年时间，视觉识别的错误率已经降低了 10 倍。
2012 年对 GPU 和深度识别技术的了解让这一领域实现了突破，人工智能的发展对视觉研究作用明显。近期，专家们开始预测，可以根据视觉化语言模式，了解不同体积下的关系，甚至去了解不同物体间的位置和动作关系，在李飞飞看来，这是量化研究，是在用更丰富的方法来了解世界。
那么图像识别具体是如何了解物体的呢？李飞飞举例称，一张照片，通过视觉识别技术，后台可以分析出众多标签，然后通过不同标签、不同属性、不同关系来描述物体，而数据库和信息集，可以做到更精准的研究。
李飞飞解释道，大家都用过百度和谷歌搜索图片，当用户输入“一个男人”时，图片搜索结果很丰富，当搜索“一只狗”时，同样会获得丰富结果，但当用户输入“一个坐着的男人牵着一只狗”时，结果却大相径庭，甚至很不理想。
这主要取决于算法的差异，目前绝大多数算法，在搜索图像时还是使用物体本身的信息，只是简单了解图片中有什么物体。如果加入更多的属性，那么结果就会更好。李飞飞透露，他们正在探索新方法，比如一个长句，把它放到数据库中，与图像进行对比，通过这种算法可以得到更好更精准的结果。
目前，图像识别领域的成果是通过场景图，可以提供 4 层的分析结果，从而获得更多信息，李飞飞以一名美食家的视频举例，视频中，美食家在做饭时，放入了不同调料，通过图像识别技术，这些图像下方就出现了描述短语。
李飞飞表示，目前可以将图像变成短句，从而出现更多内容，这与认知心理学的实验结果是非常接近的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部