• 小林子
    2025-03-12 来自贵州
    老师可以讲一下如何在华为昇腾910机器上部署吗

    作者回复: 不好意思,我手里没有机器 没法演示 不过你可以去研究一下gpustack以及mindie

    
    1
  • b1a2e1u1u
    2025-03-12 来自北京
    老师请教一下,使用docker搭建完vllm环境之后,文中所说的离线推理的那部分代码是要进入vllm的docker中使用python运行吗?

    作者回复: 嗯嗯 是的

    共 2 条评论
    
  • Masquerade
    2025-03-12 来自湖北
    老师,vllm我用docker运行怎样加载本地下载好的模型

    作者回复: 你好 启动docker容器时把模型文件挂载到容器内部去

    共 4 条评论
    
  • willmyc
    2025-03-12 来自广东
    张量并行设备仅限于同一台节点内,在未设置管道并行时,它不会将另一台服务器的GPU纳入张量并行队列。结果只能使用8张GPU,剩余8张GPU未被调度,导致无法充分利用所有的GPU资源。

    作者回复: 下节课用了ray 就可以解决这个问题了

    
    
  • 111
    2025-03-13 来自上海
    思考题:当使用 2 台 8*A100 的服务器部署 DeepSeek-R1-671B 模型时,若设置 --tensor-parallel-size=16 会出现什么现象? 单台有8张显卡,这里虽然设置了--tensor-parallel-size=16,但实际只能调度8张卡,同时没有指定–pipeline-parallel-size,那目测应该拉不起来,显存少了一半,肯定是不足的!
    
    
  • grok
    2025-03-13 来自美国
    老师,能否尽快上传vLLM + Ray的K8s yaml? 到这个课程的github repo
    
    
  • grok
    2025-03-13 来自美国
    云阳大佬,k8s环境下,如何评估和设计auto-scaling? 比如:gpu快撑爆了,就拉起来另一个模型副本同时提供服务?gpu负荷低了,就把过剩的模型副本销毁? 还是看请求量?低并发就拉起来一个模型,如果成千上万的高并发冲过来,就拉起来另一个模型副本同时提供服务? 这些东西怎么决定/设计的?谢大佬。
    
    
  • imxilife
    2025-03-13 来自广东
    老师我是做移动应用开发的,我想在组内做 AI的结对编程,比如让 AI 去 Review整个项目代码从中找到存在的 bug 或逻辑缺陷?这个要怎么做呢?
    
    
  • 贾维斯Echo
    2025-03-12 来自河北
    公司给我16张H100,部署deepseek满血版,不是蒸馏量化的那种,一个机器最多8张卡,我就想问下怎么通过通过分布式集群部署一个单节点服务?
    
    
  • 西钾钾
    2025-03-12 来自浙江
    思考题:当使用 2 台 8*A100 的服务器部署 DeepSeek-R1-671B 模型时,若设置 --tensor-parallel-size=16 会出现什么现象? 在没有指定 pipeline-parallel-size 时,是只能用到 1 台服务器吗?这种情况下,应该是不是显存不够,不能正常启动了。
    
    