Case12|大模型推理性能优化:大模型推理新突破:分布式推理技术探索与实践
阿里巴巴智能引擎/TRE/高性能网络团队

作者 | 阿里巴巴智能引擎 /TRE/ 高性能网络团队 石新飞,刘侃,张弛,张泽超,包文鼎,李雨航,董纪莹,张莹
在大模型的推理过程中,通常可以将任务分为两个阶段:Prefill 阶段处理所有输入的 Token,生成第一个输出 Token,并生成 KVCache。Decode 利用 KVCache 进行多轮迭代,每轮生成一个 Token。Pefill 阶段通常是计算密集型的,Decode 阶段通常是显存带宽瓶颈。
业界常见的调度器(Continuous Batching)会在每一轮调度中,剔除已经完成的请求,并且将能满足显存需求的 Prefill 请求和 Decode 请求凑批执行。Prefill 阶段运行时间较长,此时 Decode 阶段的时延受到较大影响。最终体现为只要请求出现了 P-D 请求凑批执行,那么请求的平均时延和 P99 时延就会出现巨大波动,这个问题在线上场景时刻存在。
当然也有其他调度策略:
Prefill 优先策略,Prefill-Decode 请求不允许凑批,那么对 Decode 请求的影响更大。
Decode 优先策略,Prefill-Decode 请求不允许凑批,会使得 GPU 利用效率降低。
Chunked Prefill [1] 技术将 Prefill 的请求拆成多个部分多轮执行,在每轮中和 Decode 请求凑批执行,可以提高 Decode 请求的交互性能,但是它的总时延还是会受到 Prefill 请求的影响。并且因为 Prefill 请求仍然长时间占用显存,导致 Decode 请求的并发受到限制。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. P-D分离技术优化大模型推理过程中的Prefill和Decode阶段,降低成本并提高性能。 2. P-D分离的难点问题包括通信机制、成本、分布式系统的复杂性以及面向未来的P-D分离设计等方面。 3. P-D分离在RTP-LLM上实现后,在不同场景上线取得了不俗的效果,包括实例个数下降、平均时延下降和P99时延下降。 4. P-D分离的成本讨论包括凑批策略、资源分配和控制信息传输等方面。 5. P-D分离的数据传输方面讨论了KVCache的传输、TCP和RDMA的选择、RDMA的安全性和RDMA库的选择。 6. P-D分离的部署模式提供了更多的选择,可以根据需求自由地在Prefill和Decode机器部署不同的量化方案,从而降低成本并提高性能. 7. P-D分离架构需要考虑系统复杂性、负载均衡、分布式稳定性等问题,需要引入多节点/多集群、自动化故障处理和灰度升级等机制来保障稳定性和可用性. 8. InfiniStore是一个分布式KV Store,提供本机GPU传输和跨机器的RDMA传输,支持Ethernet和IB两种方案。 9. CacheStore方案旨在支持不同的数据传输机制,包含RDMA,控制信息的传输使用TCP/RPC协议,支持异步接口,计算和传输Overlap,最大化RDMA的并行性,考虑分布式系统的容错性。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》,新⼈⾸单¥0.11
《致程序员:AI 百问百答》,新⼈⾸单¥0.11
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论