045 | 文档理解的重要特例：多模文档建模

洪亮劼



该思维导图由 AI 生成，仅供参考

本周我们重点分享搜索系统中的一个重要部件，那就是文档理解。周一我们首先分享了文档理解最基本的一个步骤，那就是给文档分类，主要是看不同文档表达什么类别的信息。然后，周三我们聊了聊另外一个重要的文档理解组件，也就是文档聚类的一些基本的概念和技术。今天我就来和你分享一个文档理解的重要特例：多模文档建模（Multimodal Modeling）。
多模数据我们首先来了解一下，到底什么是多模数据。
多模数据，其实就是说数据有多种模式（Modal）的表达途径。而这些多种不同的模式都共同参与描述同一个数据点的不同方面。
比如，有一张照片反映的是美国总统特朗普在华盛顿白宫的致辞。那么照片本身是对这个场景的一个描述，这是一个模式。然后，和照片相应的文字描述，说明这是特朗普在白宫的致辞，又是另外一个模式。这两个模式是相辅相成的，都是对这个场景的描述。很明显，针对这样多种数据模式的建模是多媒体时代、社交媒体时代非常重要的课题。
在文档领域，非常普遍的情况是文字和图片混搭。一般来说，新闻网站一般都有大量的图文信息。而有一些特殊场景，文字和图片则出现很不对称的混合情况。比如，一些社交媒体（例如 Instagram、Pinterest 甚至 Twitter）上很多短文档都仅仅包含图片或者图片和很少的文字。在这些情况中，文字和图片就成了非常重要的互相补充的信息源。
另外，在电子商务网站中，商品的图片正在成为越来越重要的信息途径。用户经常依靠图片来判断是否要购买某个商品。在电子商务网站上已经很难看到只有文字描述的商品信息了。因此，对于文档的搜索来说，对图文信息的理解是一个核心的技术问题。
那么，多模数据的建模难点是什么呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

多模数据建模是文档理解中的重要问题，涉及多种数据模式的表达途径。在多模数据建模中，关键挑战在于有效利用不同模式的特征来最优地反映到某一任务中。文章介绍了多模数据建模的基础思路，包括学习数据表征、联合表征和独立表征的构建，以及构建不同分类器的方法。此外，还提及了多模数据建模的其他应用，如模式之间的转换和对接，以及可视化问答等任务。这些任务在近年来大量利用深度学习所带来的序列模型，特别是类似于RNN或者LSTM等模型的领域。最后，文章提出了一个思考题，即由多模建模所训练的分类器是否一定能比单一数据源所训练得到的分类器表现得更好。这篇文章全面介绍了多模数据建模的基本概念和方法，对于理解现代数据处理中的重要问题具有重要参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

黄德平
个人觉得不一定，具体要看数据量的大小。数据量少时，使用多模态数据增加了特征的维度，训练很容易过拟合，对于预测没有好处。
2018-12-13

1

收起评论