作者回复: 同学你好,其他硬件不像 GPU 一样卡的这么严格,但配置也不能太低。否则在模型加载,或者 GPU 与内存数据交换的场景下,也会拖后腿。至于硬盘的话,以实际大模型的文件大小来确定。这里有一篇知乎的帖子,讲的不错,你可以借鉴一下:https://www.zhihu.com/question/628771017
作者回复: 同学你好: 通常只考虑部署,不考虑推理微调的话,可以根据精度不同做粗略估算,以7B模型为例: FP32(4字节):7B × 4 = 28GB FP16(2字节):7B × 2 = 14GB INT8(1字节):7B × 1 = 7GB INT4(0.5字节):7B × 0.5 = 3.5GB Ollama默认是INT4精度的,也可以改成INT8。如果是部署从魔搭下载的原版模型,则默认是FP16的 在实际生产中,不要可着这个估算值来弄,要尽量多堆卡
作者回复: 课代表出现了👍
作者回复: 第4讲已更新,方案的精髓AI网关部分上线了
作者回复: 加紧备稿中哈
作者回复: 嗯嗯 对的 开了流式输出后 体验感会好一些。这就相当于拿一个10年前的笔记本安装个win11 一样,体验感不会好,但学习如何安装和使用win11 足够了