多模态学习中的信息融合和对齐

王天一

你好，我是王天一。
你听说过“望闻问切”这个术语吗？这是中医诊断疾病的重要方法，传说源自战国时期的名医扁鹊，并一直沿用至今，成为中医辨证施治的重要依据。其中，望诊是通过观察患者的面色、舌苔、神态等来获取身体内部的健康信息；闻诊是通过聆听患者的声音和嗅取患者的气味来分辨病情的虚实寒热；问诊是通过直接询问患者症状、病史以及生活习惯等情况来获取更多关于患者病情的详细信息；切诊是通过诊察患者的脉象、按压患者的腹部或其他部位来进一步判断病情。
这一方法通过视觉、听觉、嗅觉、触觉等多种来源全面了解患者的病情，为中医临床提供了宝贵的诊断信息，也高度契合了我们今天分享的主题：多模态信息处理。
什么是多模态学习？对于计算机来说，多模态信息处理的对象通常是存储在关系数据库当中的结构化数据，但大数据的横空出世改变了一切。大数据天然具有多源性和异构性，种类丰富的非结构化数据自然给数据处理提出了全新的挑战：要从多种来源、不同格式的数据中针对同一个对象提取信息并进行整合，就需要有全新的技术手段。
多模态数据是相同语义信息在不同的空间维度下的记录，“相同语义信息”意味着虽然数据的形式不同，但描述的必须是同一个客体对象。比如互联网上关于某位公众人物的视频、图片、语音、文本等数据，再比如医学上对同一个病灶进行不同类型的检查得到的 B 超、CT、核磁共振等医学影像，以及描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等，这些都属于多模态数据的范畴。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 多模态学习旨在联合表示不同模态的数据，捕捉不同模态之间的内在关联，实现不同模态的信息相互转化，从而学习到更好的特征表示。 2. 多模态信息融合的主要方法包括联合融合方法和协同融合方法，旨在将来自多种模态的信息集成在一起，以提高模型的表达能力和性能。 3. 多模态学习和信息融合的核心环节在于构建共享表示空间，实现有效的跨模态匹配，以捕捉不同模态之间的内在关联。 4. 多模态信息对齐是为同一个对象的不同模态信息建立对应关系，通过在不同模态的数据之间建立和发现对应关系，以实现信息的有效整合，从而增强对复杂场景的理解能力。 5. 多模态对齐任务中的方法可以分为显式对齐和隐式对齐两类，分别涉及监督对齐、无监督对齐以及基于神经网络的隐式对齐方法。 6. 显式对齐方法包括监督对齐和无监督对齐，分别使用有标签的数据和度量统计特性来完成对齐任务。 7. 隐式对齐方法不是直接以对齐作为目标，而是通过学习共享的潜在空间来提高任务性能，通常使用基于神经网络的方法，并能实现端到端的学习。 8. 多模态学习和信息融合的目的是从多种来源、不同格式的数据中针对同一个对象提取信息并进行整合，以提高模型的表达能力和性能。 9. 在融合和学习等关键任务上，多模态学习仍存在着不小的进步空间，需要解决如何在越发多样化的数据中提取信息的重要课题。 10. 人工智能的发展需要解决如何在越发多样化的数据中提取信息，将多模态学习应用于复杂的信息处理任务，以提高模型的表达能力和性能。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论