极客时间-轻松学习，高效学习-极客邦

小林子
2025-03-12 来自贵州
老师可以讲一下如何在华为昇腾910机器上部署吗
作者回复: 不好意思，我手里没有机器没法演示不过你可以去研究一下gpustack以及mindie
1
b1a2e1u1u
2025-03-12 来自北京
老师请教一下，使用docker搭建完vllm环境之后，文中所说的离线推理的那部分代码是要进入vllm的docker中使用python运行吗？
作者回复: 嗯嗯是的
共 2 条评论
Masquerade
2025-03-12 来自湖北
老师，vllm我用docker运行怎样加载本地下载好的模型
作者回复: 你好启动docker容器时把模型文件挂载到容器内部去
共 4 条评论
willmyc
2025-03-12 来自广东
张量并行设备仅限于同一台节点内，在未设置管道并行时，它不会将另一台服务器的GPU纳入张量并行队列。结果只能使用8张GPU，剩余8张GPU未被调度，导致无法充分利用所有的GPU资源。
作者回复: 下节课用了ray 就可以解决这个问题了
111
2025-03-13 来自上海
思考题：当使用 2 台 8*A100 的服务器部署 DeepSeek-R1-671B 模型时，若设置 --tensor-parallel-size=16 会出现什么现象？单台有8张显卡，这里虽然设置了--tensor-parallel-size=16，但实际只能调度8张卡，同时没有指定–pipeline-parallel-size，那目测应该拉不起来，显存少了一半，肯定是不足的！
grok
2025-03-13 来自美国
老师，能否尽快上传vLLM + Ray的K8s yaml? 到这个课程的github repo
grok
2025-03-13 来自美国
云阳大佬，k8s环境下，如何评估和设计auto-scaling? 比如：gpu快撑爆了，就拉起来另一个模型副本同时提供服务？gpu负荷低了，就把过剩的模型副本销毁？还是看请求量？低并发就拉起来一个模型，如果成千上万的高并发冲过来，就拉起来另一个模型副本同时提供服务？这些东西怎么决定/设计的？谢大佬。
imxilife
2025-03-13 来自广东
老师我是做移动应用开发的，我想在组内做 AI的结对编程，比如让 AI 去 Review整个项目代码从中找到存在的 bug 或逻辑缺陷？这个要怎么做呢？
贾维斯Echo
2025-03-12 来自河北
公司给我16张H100，部署deepseek满血版，不是蒸馏量化的那种，一个机器最多8张卡，我就想问下怎么通过通过分布式集群部署一个单节点服务？
西钾钾
2025-03-12 来自浙江
思考题：当使用 2 台 8*A100 的服务器部署 DeepSeek-R1-671B 模型时，若设置 --tensor-parallel-size=16 会出现什么现象？在没有指定 pipeline-parallel-size 时，是只能用到 1 台服务器吗？这种情况下，应该是不是显存不够，不能正常启动了。