16｜多模态：整合大语言模型与Dall-E/Stable Diffusion API

黄佳

你好，我是黄佳。从今天开始，我们进入一个新的应用开发领域——多模态开发实战。
AI 时代基本天天有惊喜，通常是小惊喜，偶尔有大惊喜。2024 年 5 月，OpenAI 的又一款语言模型让人眼前一亮，连连惊叹，这就是 GPT-4o。
GPT-4o 和多模态OpenAI 官宣：GPT-4o（“o”代表“o​​mni”）是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在最短 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的反应时间相似。它在英语和代码文本上的表现与 GPT-4 Turbo 相当，在非英语语言文本上的表现有显著改善，同时也更快。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色，价格却便宜 50%。
而且，GPT-4o 并不仅仅是语言模型技术上的新突破，它也是一款非常出彩的 AI 产品，是产品设计和用户体验方面的王者。
只要你打开麦克风和摄像头，你的 AI 就真的拥有了耳朵、嘴和眼睛，能够接收实时信息，无缝地和你（甚至是和另一个 AI）互动。你和它聊天，就像和另外一个人聊天一样，它能够观察到你的语气、表情、外部环境的样子和你当前的个人状态。它可以为你辅导数学，给你做旅游向导，帮助你准备面试，甚至是两个或者多个 AI 还可以相互对话、沟通。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

1. OpenAI发布了GPT-4o，这是一款多模态语言模型，可以接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。 2. 多模态开发实战中，可以利用多模态API完成图-文、文-图、文-视频、视频-文等交互任务，使用不同模型如CLIP、GPT-4V、DALL-E、Stable Diffusion等。 3. 设计提示词是第一步，需要给大语言模型明确的指示，告诉它何时以及如何调用图像生成函数。 4. GPT-4o整合了图、文、音频的训练，具有观察环境的能力，可以对音视频流进行解读和理解。 5. 多模态开发实战中，可以利用DALL-E、Stable Diffusion等工具，将大语言模型与强大的图像生成工具无缝整合，创造更生动、吸引人的交互体验。 6. 通过提供详细的示例和指导，使得指示更加具体且易于理解和模仿，从而高效地生成高质量的图像.

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大模型应用开发实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论