Case8|AI 原生应用全栈可观测实践:以 DeepSeek 对话机器人为例
夏明

嘉宾介绍:夏明,阿里云高级技术专家。在链路追踪、应用可观测领域从业近十年。先后负责阿里集团 EagleEye、阿里云 ARMS 相关产品设计与研发。GitHub 稳定性专栏 StabilityGuide 发起者。
随着 DeepSeek-V3 & R1 火爆全球,基于大语言模型和 AI 生态技术栈构建的应用与业务场景与日俱增。AI 原生应用架构从研发到生产落地,面临诸多新的挑战,包括模型选择、流程编排、评估分析等等。可观测技术可以帮助 LLM 应用开发及运维人员更好的优化模型性能、成本及效果。
在 InfoQ 举办的QCon 全球软件开发大会上阿里云高级技术专家夏明做了专题演讲“AI 原生应用全栈可观测实践:以 DeepSeek 对话机器人为例”,演讲以 DeepSeek 对话机器人为例,深入介绍 AI 原生应用架构的可观测需求、挑战与方案实践。比如 DeepSeek 为何频繁出现服务器繁忙?如何评估 DeepSeek 与其他模型的性能、成本与效果差异?如何优化 DeepSeek 对话机器人的终端用户体验?等等。
以下是演讲实录(经编辑)。
Al 原生应用架构演进及痛点
AI 领域的从业者对相关进展应该比较熟悉。例如,基础模型的快速发展,尤其是近两个月,Deepseek 和阿里千问大模型等在国际上取得了领先的竞争力。在应用方面,目前比较热门的有 Dify 等应用编排和应用平台、LangChain 编排框架以及 MCP 生态,它们都迅速融入了大模型生态。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. AI原生应用架构面临的挑战包括模型选择、流程编排、评估分析等,可观测技术有助于优化模型性能、成本及效果。 2. 阿里云提出AI原生应用架构方案,包括用户终端、应用模型层、AI网关能力和模型服务层,以及AI全栈统一监控的观测诉求。 3. 大模型应用的可观测性需要关注新的指标如RT、TTFT、TPOT和Token per Second,以及LLM应用的领域化Trace语义和流式场景的LLM Span分段采集与合并。 4. 阿里云通过自研探针进行高质量数据采集,支持更多埋点框架和多进程协程等细节优化,以提高稳定性和性能。 5. 在大模型领域,流式场景的LLM Span分段采集与合并是一个比较特殊的新问题,需要重新审视,采用分段采集和服务端合并,最终持久化为一条记录的方案。 6. 阿里云的Copilot智能助手和Problem Insights智能洞察解决了AI应用中的性能优化和故障应急场景,提供智能化的解决方案。 7. 未来规划包括采集更多高质量数据、构建数据之间的实体关系连接、持续优化模型评估流程和迭代可观测智能体,借助AI发展浪潮,通过AGI提升行业和社会的生产力。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》,新⼈⾸单¥0.11
《致程序员:AI 百问百答》,新⼈⾸单¥0.11
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论