• 一周吃三次西蓝花
    2025-03-04 来自江苏
    老师您好,GPU的需求规格我们知道了,那么在真正部署的时候,对于其他硬件的配置又该如何考虑?比如内存、CPU、硬盘大小等。是否有资料可以学习。

    作者回复: 同学你好,其他硬件不像 GPU 一样卡的这么严格,但配置也不能太低。否则在模型加载,或者 GPU 与内存数据交换的场景下,也会拖后腿。至于硬盘的话,以实际大模型的文件大小来确定。这里有一篇知乎的帖子,讲的不错,你可以借鉴一下:https://www.zhihu.com/question/628771017

    
    
  • Geek_37fddb
    2025-03-04 来自福建
    老师,如何判断多大的参数量需要多大的显存才能支撑步规模的调用呢?

    作者回复: 同学你好: 通常只考虑部署,不考虑推理微调的话,可以根据精度不同做粗略估算,以7B模型为例: FP32(4字节):7B × 4 = 28GB FP16(2字节):7B × 2 = 14GB INT8(1字节):7B × 1 = 7GB INT4(0.5字节):7B × 0.5 = 3.5GB Ollama默认是INT4精度的,也可以改成INT8。如果是部署从魔搭下载的原版模型,则默认是FP16的 在实际生产中,不要可着这个估算值来弄,要尽量多堆卡

    
    
  • willmyc
    2025-03-04 来自广东
    目前想到的:1,启用流式输出 2,限制token的生成个数 3.加缓存 4,升级硬件资源

    作者回复: 课代表出现了👍

    
    
  • kxydoublek
    2025-03-04 来自安徽
    等更新

    作者回复: 第4讲已更新,方案的精髓AI网关部分上线了

    
    
  • 溪尾
    2025-03-04 来自云南
    老师,已经读完啦,在等更新

    作者回复: 加紧备稿中哈

    
    
  • kevin
    2025-03-04 来自江苏
    16GB 显存的 T4 卡部署32B的ds模型,大模型反应很慢吧?我部署了,体验是这样的

    作者回复: 嗯嗯 对的 开了流式输出后 体验感会好一些。这就相当于拿一个10年前的笔记本安装个win11 一样,体验感不会好,但学习如何安装和使用win11 足够了

    
    