5G时代下:多模态理解做不到位注定要掉队
极客时间编辑部
讲述:丁婵大小:2.47M时长:02:43
微博用户可以以文字、图片、视频等多媒体形式,且有自己的特点。随着 4G、5G 网络的发展,图像视频在社交网络中的比重越来越大,仅仅使用文本理解的方法无法满足微博物料召回和物料分发的需求。因此,结合文本、图像、音频、图像序列等多模态内容理解势在必行。
本文主要介绍了多模态内容理解在微博场景中的实践和应用,希望读者可以对这项技术有更好的了解。
在多媒体信息处理领域,所谓“模态”,用通俗的话说,就是“感官”,包括视觉、听觉、语义等,多模态即使用计算机将多种“感官”信息的融合。近年来,人工智能技术的蓬勃发展使得机器智能不断进步,多模态机器学习让机器像人类一样具有视觉、听觉和语义感知、理解和决策能力,正成为未来人工智能发展的必然方向,在自然人机交互、自动驾驶、VR/AR 等领域有巨大的应用价值。
微博平台上图片微博和视频微博广泛流行,如何有效理解这些内容成为了新的挑战。只依赖微博文本或者图像某一种模态进行理解存在如下几点局限性和困难:
文本分析对歧义理解,隐喻处理存在较大困难;
文本打标签无法处理短文本或者无文本微博;
图像理解需要大量的标注样本。
在当前自媒体时代,视频在社交网络中的比重也越来越重,视频内容理解的需求也随之增加。而视频本身就包含了多模态信息(图像序列、语音、图像中的文本等),多模态信息处理技术将会扮演重要的角色。我们需要加大多模态在视频理解方面的投入,同时在用户画像、个性化推荐等方向进行多模态方面的探索及应用落地。
另外,借助于多模态信息处理,小规模样本数据和非监督的内容理解将会有一定的突破。当前内容理解主要以数据驱动,需要大量的标注样本。多模态包含比单模态更丰富的信息,并且存在一定的信息冗余,通过多模态之间信息相互增强和补充,在小规模样本数据和非监督内容理解方面比单模态更有优势。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论