AI 重塑测试开发系统实践
陈磊
前京东测试架构师
1083 人已学习
新⼈⾸单¥29
AI 重塑测试开发系统实践
15
15
1.0x
00:00/00:00
登录|注册

13|Query改写:大模型测试的数据倍增器

你好,我是陈磊。
上节课,我详细分享了如何从知识库中高效批量生成高质量的 QA 对(问题 - 答案对),以此作为利剑,直击大模型应用的准确率和鲁棒性痛点。我们不光聊了手工构建的细腻过程,还重点探讨了如何反客为主、借助大模型自身的能力,来自动化生成这些测试数据集——这简直是“以子之矛攻子之盾”的绝妙一招,让测试工程师从繁琐标注中彻底解放。
我把自己写的并开源的小工具 qa-gen-cn 拎出来现身说法,它构建了一个简洁却强大的“输入、生成、过滤、输出”模块化流水线,从文档预处理和分块入手,利用 LangChain 链条驱动 LLM 吐出多样 QA 对,再通过语义相似、长度检查、关键词匹配或唯一性验证等关卡把关,确保输出精炼可靠、针对中文场景优化。这不只加速了你的测试迭代,还能让你腾出手深挖模型的边界行为。
今天我们将目光从 QA 对的生成,转向大模型测试中另外一个非常实用的技能 query 改写上。Query 改写,也叫 Query 扩写,它简直就是测试工程师的“数据倍增器”!
比如你手头就那么点有限的测试查询,覆盖面总觉得捉襟见肘,万一模型在用户真实输入的奇葩表达上栽跟头,那可就尴尬了。这时候,Query 改写就登场了,它能像个“同义词工厂”,快速从原始查询衍生出一堆语义等价却表达多变的变体,让你的测试数据集瞬间膨胀,覆盖更多边缘 case 和真实场景,提升模型的鲁棒性,这不光是效率飞跃,更是让测试从“死记硬背”变成“活学活用”的华丽转身。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. Query改写是测试工程师在大模型测试中非常实用的技能,可以通过改写有限的测试查询衍生出一堆语义等价的变体,从而扩大测试数据集,提升模型的鲁棒性。 2. Query改写的方法包括基于大模型的改写、词汇表改写和同义词改写,其中基于大模型的改写能够利用大模型的能力,基于原始查询生成语义等价的变体,从而提升测试覆盖率和模型的鲁棒性。 3. ROUGE-L和BLEU归一化验证是用来量化改写的Query与原始Query的质量,通过加权的ROUGE-L和(1-BLEU)分数来选择最佳查询,找出语义和多样性的平衡的结果。 4. 帕累托最优是一种方法,通过ROUGE-L和BLEU分数找出“无人能敌”的变体,形成“非支配前沿”,实现语义-多样性的“黄金权衡”。 5. 最详细:长者为王是一种简单粗暴的方法,按照改写的Query的长度排序,找出最长的改写Query返回,适合测试“长尾意图”场景。 6. 大模型的语义相似度是一种终极大招,利用“判官”大模型的思路,让这个大模型评价改写的Query和原Query的相似度,然后返回语义上最相似但是词汇上差异最大的结果。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 重塑测试开发系统实践》
新⼈⾸单¥29
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部