大模型应用开发实战
黄佳
新加坡科研局资深研究员
1649 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 17 讲/共 25 讲
大模型应用开发实战
15
15
1.0x
00:00/00:00
登录|注册

16|多模态:整合大语言模型与Dall-E/Stable Diffusion API

你好,我是黄佳。从今天开始,我们进入一个新的应用开发领域——多模态开发实战。
AI 时代基本天天有惊喜,通常是小惊喜,偶尔有大惊喜。2024 年 5 月,OpenAI 的又一款语言模型让人眼前一亮,连连惊叹,这就是 GPT-4o。

GPT-4o 和多模态

OpenAI 官宣:GPT-4o(“o”代表“o​​mni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在最短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的反应时间相似。它在英语和代码文本上的表现与 GPT-4 Turbo 相当,在非英语语言文本上的表现有显著改善,同时也更快。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色,价格却便宜 50%。
而且,GPT-4o 并不仅仅是语言模型技术上的新突破,它也是一款非常出彩的 AI 产品,是产品设计和用户体验方面的王者。
只要你打开麦克风和摄像头,你的 AI 就真的拥有了耳朵、嘴和眼睛,能够接收实时信息,无缝地和你(甚至是和另一个 AI)互动。你和它聊天,就像和另外一个人聊天一样,它能够观察到你的语气、表情、外部环境的样子和你当前的个人状态。它可以为你辅导数学,给你做旅游向导,帮助你准备面试,甚至是两个或者多个 AI 还可以相互对话、沟通。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

1. OpenAI发布了GPT-4o,这是一款多模态语言模型,可以接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 2. 多模态开发实战中,可以利用多模态API完成图-文、文-图、文-视频、视频-文等交互任务,使用不同模型如CLIP、GPT-4V、DALL-E、Stable Diffusion等。 3. 设计提示词是第一步,需要给大语言模型明确的指示,告诉它何时以及如何调用图像生成函数。 4. GPT-4o整合了图、文、音频的训练,具有观察环境的能力,可以对音视频流进行解读和理解。 5. 多模态开发实战中,可以利用DALL-E、Stable Diffusion等工具,将大语言模型与强大的图像生成工具无缝整合,创造更生动、吸引人的交互体验。 6. 通过提供详细的示例和指导,使得指示更加具体且易于理解和模仿,从而高效地生成高质量的图像.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大模型应用开发实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)