Q11｜多模态：核心技术挑战是什么？

邵帅/高欢/赵波

作者介绍：
邵帅，腾讯混元专家研究员
高欢，快手多模态模型算法负责人
赵波，上海交通大学人工智能学院副教授
Q：多模态技术中，处理不同模态数据（如视频、图像、文本）时，分别面临的核心技术挑战是什么？
邵帅：目前最核心的难题在于多模态对齐与融合的问题。不同模态数据在数据结构上都存在显著差异，这种根本性的差异导致我们需要解决两个关键技术难点：一方面是如何设计通用的 tokenizer 来实现跨模态的统一表征，另一方面是如何建立有效的模态对齐机制来实现异构数据间的语义关联。
在实际应用过程中，我们还面临着数据平衡的挑战。当训练数据中某一模态占据优势时，往往会导致其他模态的性能出现退化。此外，在多任务学习场景下，当模型需要同时处理多种不同类型的任务时，经常会出现任务之间的相互干扰问题，以及计算资源如何合理分配的难题。
高欢：与静态图像不同，视频是由连续帧构成的时序数据，这对当前受限于上下文窗口的自回归大语言模型提出了更高要求。目前常见的解决方案包括帧采样、降低分辨率增加帧数，或是采用 token merge 技术来压缩视觉 token。但每种方法都不可避免地会损失部分信息，这种信息损耗在进行深度多模态理解时尤为关键。
作为短视频平台，快手每天都需要处理海量的新数据，这带来了热门概念快速更迭的问题。一个今天爆火的舞蹈可能明天就过时了，而训练一个模型往往也需要一整天时间，这就导致模型刚训练完就可能面临失效的风险。为了解决这个问题，我们探索了 RAG 等技术方案，以及轻量级训练方法来快速融入新概念。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 多模态技术面临的核心技术挑战包括多模态对齐与融合、数据平衡、多任务学习中的相互干扰问题以及计算资源合理分配的难题。 2. 在处理视频数据时，面临着信息损耗、快速模型失效、静态特征的理解以及推理成本增加等挑战。 3. 针对长视频理解大模型的研究，关注高效提取和压缩视频信息，解决视频数据的冗余性问题。 4. 快手探索了RAG等技术方案以及轻量级训练方法来快速融入新概念，以解决热门概念快速更迭的问题。 5. 视频数据的挑战在于其冗余性，需要充分利用大语言模型自身的token压缩能力，并从源头压缩视觉tokenizer产生的token数量。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《致程序员：AI 百问百答》，新⼈⾸单¥0.11

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论