Case12｜大模型推理性能优化：大模型推理新突破：分布式推理技术探索与实践

阿里巴巴智能引擎/TRE/高性能网络团队

作者 | 阿里巴巴智能引擎 /TRE/ 高性能网络团队 石新飞，刘侃，张弛，张泽超，包文鼎，李雨航，董纪莹，张莹
在大模型的推理过程中，通常可以将任务分为两个阶段：Prefill 阶段处理所有输入的 Token，生成第一个输出 Token，并生成 KVCache。Decode 利用 KVCache 进行多轮迭代，每轮生成一个 Token。Pefill 阶段通常是计算密集型的，Decode 阶段通常是显存带宽瓶颈。
业界常见的调度器（Continuous Batching）会在每一轮调度中，剔除已经完成的请求，并且将能满足显存需求的 Prefill 请求和 Decode 请求凑批执行。Prefill 阶段运行时间较长，此时 Decode 阶段的时延受到较大影响。最终体现为只要请求出现了 P-D 请求凑批执行，那么请求的平均时延和 P99 时延就会出现巨大波动，这个问题在线上场景时刻存在。
当然也有其他调度策略：
Prefill 优先策略，Prefill-Decode 请求不允许凑批，那么对 Decode 请求的影响更大。
Decode 优先策略，Prefill-Decode 请求不允许凑批，会使得 GPU 利用效率降低。
Chunked Prefill [1] 技术将 Prefill 的请求拆成多个部分多轮执行，在每轮中和 Decode 请求凑批执行，可以提高 Decode 请求的交互性能，但是它的总时延还是会受到 Prefill 请求的影响。并且因为 Prefill 请求仍然长时间占用显存，导致 Decode 请求的并发受到限制。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. P-D分离技术优化大模型推理过程中的Prefill和Decode阶段，降低成本并提高性能。 2. P-D分离的难点问题包括通信机制、成本、分布式系统的复杂性以及面向未来的P-D分离设计等方面。 3. P-D分离在RTP-LLM上实现后，在不同场景上线取得了不俗的效果，包括实例个数下降、平均时延下降和P99时延下降。 4. P-D分离的成本讨论包括凑批策略、资源分配和控制信息传输等方面。 5. P-D分离的数据传输方面讨论了KVCache的传输、TCP和RDMA的选择、RDMA的安全性和RDMA库的选择。 6. P-D分离的部署模式提供了更多的选择，可以根据需求自由地在Prefill和Decode机器部署不同的量化方案，从而降低成本并提高性能. 7. P-D分离架构需要考虑系统复杂性、负载均衡、分布式稳定性等问题，需要引入多节点/多集群、自动化故障处理和灰度升级等机制来保障稳定性和可用性. 8. InfiniStore是一个分布式KV Store，提供本机GPU传输和跨机器的RDMA传输，支持Ethernet和IB两种方案。 9. CacheStore方案旨在支持不同的数据传输机制，包含RDMA，控制信息的传输使用TCP/RPC协议，支持异步接口，计算和传输Overlap，最大化RDMA的并行性，考虑分布式系统的容错性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《致程序员：AI 百问百答》，新⼈⾸单¥0.11

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论