• @҈҉҈҉҈҉҈҉҈...
    2025-07-17 来自新加坡
    这里说得并发参数,例如 Batch Size。在部署推理的时候,往往需要在 Batch Size 和性能指标(延迟,吞掉)之间寻找平衡。如果 Batch Size 过高,总 Token 数吐得更多,Token 单价便宜,但是单用户体验会变差,推理速度也会变慢。相反,如果 Batch Size 过高,虽然用户体验会更好,但总 Token 数吐得慢,导致 Token 单价上升。闭源模型也存在类似平衡问题,所以这点不是决定开源和闭源的区别。 --------- 这段话中,两个假设都是“如果 Batch Size 过高,”,表达有歧义。
    
    1