Q14｜技术、数据、应用：多模态下一阶段突破？

邵帅/高欢/赵波

作者介绍：
邵帅，腾讯混元专家研究员
高欢，快手多模态模型算法负责人
赵波，上海交通大学人工智能学院副教授
Q：多模态大模型的下一阶段突破可能来自哪些方向？技术、数据、 应用落地分别将会有什么样的突破？
邵帅：数据层面即将迎来重要突破：通过利用更多模态的数据，即使某些模态存在缺失，也能训练出具有更强指令遵循和泛化能力的模型。
第一，当前的数据清洗流程虽然提升了数据平均质量，但也损失了大量潜在信息。未来我们需要探索如何增强模型的抗噪能力，从低质量数据中提取更多信息，或通过修复技术提升数据质量。
第二，个性化将成为关键发展方向。每个用户都有独特的兴趣偏好和需求表达方式，可能是通过文本，也可能是通过交互反馈。如何为不同用户或不同场景提供差异化能力，实现真正的“千人千面”， 将是重要的发展方向。
第三，应用层面将迎来显著增长。目前已有相对成熟稳定的技术方案可供实际使用，不再局限于研究探索阶段。同时，技术应用的耗时和成本都大幅降低。用户认知也发生了重要转变：相比一两年前人们更多是抱着尝鲜心态体验新技术，现在用户对模型的能力边界已有清晰认知，越来越多的人开始思考如何利用这些模型解决具体问题，因此 2025 年必将成为 AI 应用大规模落地的一年。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 通过利用更多模态的数据，即使某些模态存在缺失，也能训练出具有更强指令遵循和泛化能力的模型。 2. 个性化将成为关键发展方向，实现真正的“千人千面”。 3. 应用层面将迎来显著增长，2025 年必将成为 AI 应用大规模落地的一年。 4. 未来很可能会出现一个真正实现“any to any”转换的 all in one 统一模型，成为行业共同努力的方向。 5. 展望未来，像 VLA（视觉语言动作）这样的具身智能应用将会更加丰富。 6. 2025 年可能成为“any to any”多模态技术爆发的关键年份。 7. 推动多模态模型向三维空间感知方向发展，让模型能够更深入地理解和感知物理世界。 8. 进行视频生成技术的创新探索，核心突破点在于赋予视频生成模型记忆能力，解决现有视频生成中的一致性问题，为内容创作带来新的可能性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《致程序员：AI 百问百答》，新⼈⾸单¥0.11

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论