16|多模态:整合大语言模型与Dall-E/Stable Diffusion API
黄佳
你好,我是黄佳。从今天开始,我们进入一个新的应用开发领域——多模态开发实战。
AI 时代基本天天有惊喜,通常是小惊喜,偶尔有大惊喜。2024 年 5 月,OpenAI 的又一款语言模型让人眼前一亮,连连惊叹,这就是 GPT-4o。
GPT-4o 和多模态
OpenAI 官宣:GPT-4o(“o”代表“omni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在最短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的反应时间相似。它在英语和代码文本上的表现与 GPT-4 Turbo 相当,在非英语语言文本上的表现有显著改善,同时也更快。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色,价格却便宜 50%。
而且,GPT-4o 并不仅仅是语言模型技术上的新突破,它也是一款非常出彩的 AI 产品,是产品设计和用户体验方面的王者。
只要你打开麦克风和摄像头,你的 AI 就真的拥有了耳朵、嘴和眼睛,能够接收实时信息,无缝地和你(甚至是和另一个 AI)互动。你和它聊天,就像和另外一个人聊天一样,它能够观察到你的语气、表情、外部环境的样子和你当前的个人状态。它可以为你辅导数学,给你做旅游向导,帮助你准备面试,甚至是两个或者多个 AI 还可以相互对话、沟通。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. OpenAI发布了GPT-4o,这是一款多模态语言模型,可以接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 2. 多模态开发实战中,可以利用多模态API完成图-文、文-图、文-视频、视频-文等交互任务,使用不同模型如CLIP、GPT-4V、DALL-E、Stable Diffusion等。 3. 设计提示词是第一步,需要给大语言模型明确的指示,告诉它何时以及如何调用图像生成函数。 4. GPT-4o整合了图、文、音频的训练,具有观察环境的能力,可以对音视频流进行解读和理解。 5. 多模态开发实战中,可以利用DALL-E、Stable Diffusion等工具,将大语言模型与强大的图像生成工具无缝整合,创造更生动、吸引人的交互体验。 6. 通过提供详细的示例和指导,使得指示更加具体且易于理解和模仿,从而高效地生成高质量的图像.
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大模型应用开发实战》,新⼈⾸单¥59
《大模型应用开发实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论