致程序员:AI 百问百答
极客时间
专家团
582 人已学习
新⼈⾸单¥0.11
登录后,你可以任选4讲全文学习
课程目录
已更新 21 讲/共 98 讲
致程序员:AI 百问百答
15
15
1.0x
00:00/00:00
登录|注册

Q14|技术、数据、应用:多模态下一阶段突破?

作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
赵波,上海交通大学人工智能学院副教授
Q:多模态大模型的下一阶段突破可能来自哪些方向?技术、数据、 应用落地分别将会有什么样的突破?
邵帅:数据层面即将迎来重要突破:通过利用更多模态的数据,即使某些模态存在缺失,也能训练出具有更强指令遵循和泛化能力的模型。
第一,当前的数据清洗流程虽然提升了数据平均质量,但也损失了大量潜在信息。未来我们需要探索如何增强模型的抗噪能力,从低质量数据中提取更多信息,或通过修复技术提升数据质量。
第二,个性化将成为关键发展方向。每个用户都有独特的兴趣偏好和需求表达方式,可能是通过文本,也可能是通过交互反馈。如何为不同用户或不同场景提供差异化能力,实现真正的“千人千面”, 将是重要的发展方向。
第三,应用层面将迎来显著增长。目前已有相对成熟稳定的技术方案可供实际使用,不再局限于研究探索阶段。同时,技术应用的耗时和成本都大幅降低。用户认知也发生了重要转变:相比一两年前人们更多是抱着尝鲜心态体验新技术,现在用户对模型的能力边界已有清晰认知,越来越多的人开始思考如何利用这些模型解决具体问题,因此 2025 年必将成为 AI 应用大规模落地的一年。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 通过利用更多模态的数据,即使某些模态存在缺失,也能训练出具有更强指令遵循和泛化能力的模型。 2. 个性化将成为关键发展方向,实现真正的“千人千面”。 3. 应用层面将迎来显著增长,2025 年必将成为 AI 应用大规模落地的一年。 4. 未来很可能会出现一个真正实现“any to any”转换的 all in one 统一模型,成为行业共同努力的方向。 5. 展望未来,像 VLA(视觉语言动作)这样的具身智能应用将会更加丰富。 6. 2025 年可能成为“any to any”多模态技术爆发的关键年份。 7. 推动多模态模型向三维空间感知方向发展,让模型能够更深入地理解和感知物理世界。 8. 进行视频生成技术的创新探索,核心突破点在于赋予视频生成模型记忆能力,解决现有视频生成中的一致性问题,为内容创作带来新的可能性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》
新⼈⾸单¥0.11
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)