大模型应用开发实战
黄佳
新加坡科研局资深研究员
1801 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 23 讲/共 25 讲
大模型应用开发实战
15
15
1.0x
00:00/00:00
登录|注册

22|如何在与LLM交互过程中省钱及控制Rate Limits?

你好,我是黄佳。
OpenAI 提供了强大的自然语言处理 API,但在将原型转移到生产环境时,管理与运行应用程序相关的成本是一个重要的挑战,尤其是当我们调用 OpenAI 家族中比较贵的模型的时候,这一讲我们来看看这方面的内容。
OpenAI 采用按使用量付费的定价模式,费用以 Token 为单位计算。Token 的价格因所使用的模型而异。为了估算成本,需要预测 Token 的使用量,考虑诸如流量水平、用户与应用程序交互的频率以及要处理的数据量等因素。

对话过程中的 Token

众所周知,语言模型以称为 Token 的块来读写文本。一个 Token 可以是一个字符、一个单词,甚至在某些语言中可以比一个字符更短或比一个单词更长。例如,“ChatGPT is great!” 这个句子被编码为六个 Token:[“Chat”, “G”, “PT”, “is”, “great”, “!”]。
API 调用中的 Token 总数会影响 API 调用的成本,也会影响 API 调用的时间。同时,总 Token 数必须低于模型所能容纳的最大限制。
图中这个 Context Window,指的是输入输出能够容纳的 Token 总和。在 OpenAI 的 API 中,并没有对所能输出的 Token 进行限制,也就是说 max_tokens 是一个可选项。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. OpenAI采用按使用量付费的定价模式,费用以Token为单位计算,需要预测Token的使用量,考虑流量水平、用户与应用程序交互的频率以及要处理的数据量等因素。 2. Token的使用量会影响API调用的成本和时间,输入和输出Token都会被收费,而对于某些模型,输入Token和输出Token的每Token是不同的,一般来说,输入Token便宜些,输出Token更贵。 3. 控制Token数量的技巧包括精简提示词,定期对对话历史进行总结或压缩,追求简洁明了的提示,对模型进行微调以及实现查询结果的缓存机制。 4. OpenAI的速率限制系统采用了多维度的限制策略,包括每分钟请求数、每天请求数、每分钟Token数、每天Token数以及每分钟图像数等,开发者可以利用速率限制信息来优化他们的API调用策略,避免触发限制。 5. 面对速率限制,开发者可以采用指数退避重试机制和优化max_tokens参数来优化他们的API使用,另外,对于不需要即时响应的场景,可以考虑使用批处理来更有效地处理大量请求。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大模型应用开发实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)