Q14|技术、数据、应用:多模态下一阶段突破?
邵帅/高欢/赵波

作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
赵波,上海交通大学人工智能学院副教授
Q:多模态大模型的下一阶段突破可能来自哪些方向?技术、数据、 应用落地分别将会有什么样的突破?
邵帅:数据层面即将迎来重要突破:通过利用更多模态的数据,即使某些模态存在缺失,也能训练出具有更强指令遵循和泛化能力的模型。
第一,当前的数据清洗流程虽然提升了数据平均质量,但也损失了大量潜在信息。未来我们需要探索如何增强模型的抗噪能力,从低质量数据中提取更多信息,或通过修复技术提升数据质量。
第二,个性化将成为关键发展方向。每个用户都有独特的兴趣偏好和需求表达方式,可能是通过文本,也可能是通过交互反馈。如何为不同用户或不同场景提供差异化能力,实现真正的“千人千面”, 将是重要的发展方向。
第三,应用层面将迎来显著增长。目前已有相对成熟稳定的技术方案可供实际使用,不再局限于研究探索阶段。同时,技术应用的耗时和成本都大幅降低。用户认知也发生了重要转变:相比一两年前人们更多是抱着尝鲜心态体验新技术,现在用户对模型的能力边界已有清晰认知,越来越多的人开始思考如何利用这些模型解决具体问题,因此 2025 年必将成为 AI 应用大规模落地的一年。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 通过利用更多模态的数据,即使某些模态存在缺失,也能训练出具有更强指令遵循和泛化能力的模型。 2. 个性化将成为关键发展方向,实现真正的“千人千面”。 3. 应用层面将迎来显著增长,2025 年必将成为 AI 应用大规模落地的一年。 4. 未来很可能会出现一个真正实现“any to any”转换的 all in one 统一模型,成为行业共同努力的方向。 5. 展望未来,像 VLA(视觉语言动作)这样的具身智能应用将会更加丰富。 6. 2025 年可能成为“any to any”多模态技术爆发的关键年份。 7. 推动多模态模型向三维空间感知方向发展,让模型能够更深入地理解和感知物理世界。 8. 进行视频生成技术的创新探索,核心突破点在于赋予视频生成模型记忆能力,解决现有视频生成中的一致性问题,为内容创作带来新的可能性。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》,新⼈⾸单¥0.11
《致程序员:AI 百问百答》,新⼈⾸单¥0.11
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论