极客时间-轻松学习，高效学习-极客邦

一周吃三次西蓝花
2025-03-04 来自江苏
老师您好，GPU的需求规格我们知道了，那么在真正部署的时候，对于其他硬件的配置又该如何考虑？比如内存、CPU、硬盘大小等。是否有资料可以学习。
作者回复: 同学你好，其他硬件不像 GPU 一样卡的这么严格，但配置也不能太低。否则在模型加载，或者 GPU 与内存数据交换的场景下，也会拖后腿。至于硬盘的话，以实际大模型的文件大小来确定。这里有一篇知乎的帖子，讲的不错，你可以借鉴一下：https://www.zhihu.com/question/628771017
Geek_37fddb
2025-03-04 来自福建
老师，如何判断多大的参数量需要多大的显存才能支撑步规模的调用呢？
作者回复: 同学你好：通常只考虑部署，不考虑推理微调的话，可以根据精度不同做粗略估算，以7B模型为例： FP32（4字节）：7B × 4 = 28GB FP16（2字节）：7B × 2 = 14GB INT8（1字节）：7B × 1 = 7GB INT4（0.5字节）：7B × 0.5 = 3.5GB Ollama默认是INT4精度的，也可以改成INT8。如果是部署从魔搭下载的原版模型，则默认是FP16的在实际生产中，不要可着这个估算值来弄，要尽量多堆卡
willmyc
2025-03-04 来自广东
目前想到的：1，启用流式输出 2，限制token的生成个数 3.加缓存 4，升级硬件资源
作者回复: 课代表出现了👍
kxydoublek
2025-03-04 来自安徽
等更新
作者回复: 第4讲已更新，方案的精髓AI网关部分上线了
溪尾
2025-03-04 来自云南
老师，已经读完啦，在等更新
作者回复: 加紧备稿中哈
kevin
2025-03-04 来自江苏
16GB 显存的 T4 卡部署32B的ds模型，大模型反应很慢吧？我部署了，体验是这样的
作者回复: 嗯嗯对的开了流式输出后体验感会好一些。这就相当于拿一个10年前的笔记本安装个win11 一样，体验感不会好，但学习如何安装和使用win11 足够了