Agent驱动的未来：从多模态到全模态，重塑创意生产力新范式

Hiro

分享嘉宾：Hiro，头部互联网公司多模态负责人
 Sorry, your browser doesn't support embedded videos. 
00:00 / 00:00
1.0x
 3.0x 
 2.5x 
 2.0x 
 1.5x 
 1.25x 
 1.0x 
 0.75x 
 0.5x 
音量
网页全屏
全屏
00:00
大家好，我是 Hiro，今天我们来探讨的主题是“Agent 驱动的未来：从多模态到全模态，重塑创意生产力新范式”。我将分享关于 Agent 的最新洞察，包括其演进路径：从单功能 Agent 到工作流 Agent，再到如今的通用 Agent 和多模态 Agent。这个演进过程遵循着固定的范式。
当前，通用 Agent 的付费意愿显著提升，而过去的工作流模式在付费率上表现平平，其根本原因在于我们始终以“最低人工操作成本”来衡量项目的推进效率。
本次分享将从系统阐述 Agent 从单一性到通用性，再到多模态性的演进历程。首先，我们明确本系列课程的两个核心目标：
第一，解读多模态信息。今年我们见证了众多全模态模型的发布，例如美团和百度文心最新发布的版本。这背后反映了大厂们为何集体发力全模态技术——因为全模态能最大化释放大模型的潜力。例如，在进行视频问答或交流时，全模态技术能提供端到端的流畅体验，无需切换不同工具。
我们将以“Qwen 2.5 Omni”系列模型为例进行实验，同时也会融入美团、文心等最新发布的模型进行讲解，因为 AI 领域技术迭代极快。
那么，全模态所谓的“看、听、说、写”能力具体如何体现？通过观察官方演示视频可以发现，它能实现实时交互。但这背后挑战巨大：

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. Agent 技术的演进路径对于创意生产力的重塑具有重要意义，从单功能 Agent 到工作流 Agent，再到通用 Agent 和多模态 Agent。 2. 全模态技术的发展趋势包括全模态模型的发布和其提供端到端的流畅体验，无需切换不同工具，以及其挑战和关键突破。 3. 多模态通用 Agent 的差异性和威力，以 Lovart 的交互体验为例，其提供了灵活的控制点，支持 3D 生成、视频生成，并能集成 Sora 等先进能力。 4. AI 行业的最新趋势包括 AIGC 概念的深入人心，以及市场对多模态人才的需求激增，要求掌握 Stable Diffusion、ComfyUI、FLUX, VITS 等框架。 5. AI 产品的年付费收入增长迅猛，成功产品的底层模型并非自研，而是基于第三方通用模型，其核心竞争力在于上层构建能力，尤其是提示词工程。 6. 具体模态解析包括纯文本模态、多模态理解和全模态时代的核心技术。 7. 3D 生成是另一个快速发展的领域，支持从单张图片或文字生成 3D 模型，以及相关的挑战和解决方案。 8. 全模态 Agent 的工程化路径，包括构建全模态 Agent 的三大支柱和其在企业级实践中的应用案例。 9. 图像生成与工作流自动化，以及相关的应用案例和技术选型策略。 10. 语音合成与虚拟人生成的技术突破和应用场景。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《极客时间 VIP · 干货直播稿精选》

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论