致程序员:AI 百问百答
极客时间
专家团
582 人已学习
新⼈⾸单¥0.11
登录后,你可以任选4讲全文学习
课程目录
已更新 21 讲/共 98 讲
致程序员:AI 百问百答
15
15
1.0x
00:00/00:00
登录|注册

Q11|多模态:核心技术挑战是什么?

作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
赵波,上海交通大学人工智能学院副教授
Q:多模态技术中,处理不同模态数据(如视频、图像、文本)时,分别面临的核心技术挑战是什么?
邵帅:目前最核心的难题在于多模态对齐与融合的问题。不同模态数据在数据结构上都存在显著差异,这种根本性的差异导致我们需要解决两个关键技术难点:一方面是如何设计通用的 tokenizer 来实现跨模态的统一表征,另一方面是如何建立有效的模态对齐机制来实现异构数据间的语义关联。
在实际应用过程中,我们还面临着数据平衡的挑战。当训练数据中某一模态占据优势时,往往会导致其他模态的性能出现退化。此外,在多任务学习场景下,当模型需要同时处理多种不同类型的任务时,经常会出现任务之间的相互干扰问题,以及计算资源如何合理分配的难题。
高欢:与静态图像不同,视频是由连续帧构成的时序数据,这对当前受限于上下文窗口的自回归大语言模型提出了更高要求。目前常见的解决方案包括帧采样、降低分辨率增加帧数,或是采用 token merge 技术来压缩视觉 token。但每种方法都不可避免地会损失部分信息,这种信息损耗在进行深度多模态理解时尤为关键。
作为短视频平台,快手每天都需要处理海量的新数据,这带来了热门概念快速更迭的问题。一个今天爆火的舞蹈可能明天就过时了,而训练一个模型往往也需要一整天时间,这就导致模型刚训练完就可能面临失效的风险。为了解决这个问题,我们探索了 RAG 等技术方案,以及轻量级训练方法来快速融入新概念。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 多模态技术面临的核心技术挑战包括多模态对齐与融合、数据平衡、多任务学习中的相互干扰问题以及计算资源合理分配的难题。 2. 在处理视频数据时,面临着信息损耗、快速模型失效、静态特征的理解以及推理成本增加等挑战。 3. 针对长视频理解大模型的研究,关注高效提取和压缩视频信息,解决视频数据的冗余性问题。 4. 快手探索了RAG等技术方案以及轻量级训练方法来快速融入新概念,以解决热门概念快速更迭的问题。 5. 视频数据的挑战在于其冗余性,需要充分利用大语言模型自身的token压缩能力,并从源头压缩视觉tokenizer产生的token数量。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》
新⼈⾸单¥0.11
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)