欢迎回来!在前面的课程中,我们已经系统学习了 Task(任务)、Agent(智能体)以及 Process(流程)这“三剑客”,打通了多智能体协作的骨干框架。作为这个模块的最后一个单元环节,今天我们将做一些非常有意思的事情:让你的 Agent 拥有“眼睛”,去直观地感知这个具象的世界。
在真实的生产场景中,很多时候我们面对的不仅仅是纯文本信息,还包含大量其他模态的数据(如图片、视频、声音等)。如何让智能体跨越单一的文本模态,是构建复杂企业级 AI 应用的关键一步。
首先,我们需要明确一个核心概念的边界。一提到“多模态”或“图片大模型”,很多人脑海里第一反应是 Midjourney 或者 Stable Diffusion 这类“文生图”(Text-to-Image)工具。但我们这节课要讲的,是完全相反的方向——多模态的文本生成模型(Image-to-Text / Multimodal Understanding)。
我们的目标是输入图片、声音或视频等多模态素材,让模型进行处理和理解,最终输出我们需要的文字结果或结构化数据。

大语言模型(LLM)的本质是在做 Token 的预测(Predict the next token)。那么,一个原本只能处理文本序列的模型,是如何看懂一张具象的图片的呢?
