致程序员:AI 百问百答
极客时间
专家团
4473 人已学习
新⼈⾸单¥0.11
登录后,你可以任选4讲全文学习
课程目录
已更新 98 讲/共 98 讲
第一章:AI 行业全景 (25讲)
第六章:AI 项目实战经验 (30讲)
致程序员:AI 百问百答
15
15
1.0x
00:00/00:00
登录|注册

Case12|大模型推理性能优化:大模型推理新突破:分布式推理技术探索与实践

作者 | 阿里巴巴智能引擎 /TRE/ 高性能网络团队 石新飞,刘侃,张弛,张泽超,包文鼎,李雨航,董纪莹,张莹
在大模型的推理过程中,通常可以将任务分为两个阶段:Prefill 阶段处理所有输入的 Token,生成第一个输出 Token,并生成 KVCache。Decode 利用 KVCache 进行多轮迭代,每轮生成一个 Token。Pefill 阶段通常是计算密集型的,Decode 阶段通常是显存带宽瓶颈。
业界常见的调度器(Continuous Batching)会在每一轮调度中,剔除已经完成的请求,并且将能满足显存需求的 Prefill 请求和 Decode 请求凑批执行。Prefill 阶段运行时间较长,此时 Decode 阶段的时延受到较大影响。最终体现为只要请求出现了 P-D 请求凑批执行,那么请求的平均时延和 P99 时延就会出现巨大波动,这个问题在线上场景时刻存在。
当然也有其他调度策略:
Prefill 优先策略,Prefill-Decode 请求不允许凑批,那么对 Decode 请求的影响更大。
Decode 优先策略,Prefill-Decode 请求不允许凑批,会使得 GPU 利用效率降低。
Chunked Prefill [1] 技术将 Prefill 的请求拆成多个部分多轮执行,在每轮中和 Decode 请求凑批执行,可以提高 Decode 请求的交互性能,但是它的总时延还是会受到 Prefill 请求的影响。并且因为 Prefill 请求仍然长时间占用显存,导致 Decode 请求的并发受到限制。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. P-D分离技术优化大模型推理过程中的Prefill和Decode阶段,降低成本并提高性能。 2. P-D分离的难点问题包括通信机制、成本、分布式系统的复杂性以及面向未来的P-D分离设计等方面。 3. P-D分离在RTP-LLM上实现后,在不同场景上线取得了不俗的效果,包括实例个数下降、平均时延下降和P99时延下降。 4. P-D分离的成本讨论包括凑批策略、资源分配和控制信息传输等方面。 5. P-D分离的数据传输方面讨论了KVCache的传输、TCP和RDMA的选择、RDMA的安全性和RDMA库的选择。 6. P-D分离的部署模式提供了更多的选择,可以根据需求自由地在Prefill和Decode机器部署不同的量化方案,从而降低成本并提高性能. 7. P-D分离架构需要考虑系统复杂性、负载均衡、分布式稳定性等问题,需要引入多节点/多集群、自动化故障处理和灰度升级等机制来保障稳定性和可用性. 8. InfiniStore是一个分布式KV Store,提供本机GPU传输和跨机器的RDMA传输,支持Ethernet和IB两种方案。 9. CacheStore方案旨在支持不同的数据传输机制,包含RDMA,控制信息的传输使用TCP/RPC协议,支持异步接口,计算和传输Overlap,最大化RDMA的并行性,考虑分布式系统的容错性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》
新⼈⾸单¥0.11
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部