12｜为什么企业级的微调不是炼丹是熬酱？

产品二姐

你好，我是产品二姐。
上节课我们留了两个问题：
问题一，如何让 Agent 正确地思考，让 Agent 学会工作流程。
问题二，如何让 Agent 正确地行动，让 Agent 学会 function calling。
为了带着清晰的思路上手操作，我们先来讨论解题思路。
这两个问题本质上是一种“程序性”学习，就像给入职员工做企业级的培训一样，用短时间培养一个熟悉业务操作流程的员工。具体到自助工单小助手这个场景里，就是客服人员需要学会标准化操作流程和步骤，即 SOP（Standard Operation Process）。
比如：
第一步，收到客户问题，在故障解决知识库里查询解决方案。
第二步，如果客户的问题需要上门，则去查询师傅可用时间。
第三步，和客户确认上门时间、地点等信息。
第四步，确认后提交工单，完毕。
我们把这些问题和处理步骤改写为 Think-Act-Observation 或者 Plan-and-Solve 类的提示词，把它们当做 few shots 放在 Agent 的提示词里。下次遇到类似问题时，Agent 大概率会做出类似的动作。
这个提示词会是这样：
##Few shots
**User**: 我家充电桩坏了，需要报修
**Think**: 首先，我需要在故障解决知识库中查找关于充电桩故障的解决方案。这可能需要上门维修，所以我还需要准备查询技术人员的可用时间。
**Action**: 查询故障解决知识库中关于充电桩故障的信息。
**Observation**: 知识库显示，充电桩故障通常需要专业技术人员现场检查和维修，无法通过远程指导解决。
**Think**: 既然需要上门维修，我现在需要查询技术人员的可用时间。
**Action**: 查询技术人员的可用时间。
**Observation**: 系统显示最近的可用时间是明天上午9:00-11:00，后天下午2:00-4:00。
**Think**: 我现在有了可用的时间段，需要与客户确认具体的上门时间和地点。
**Action**: 询问客户的偏好时间和确切地址。
**Observation**: 北京市昌平区西二旗软件园2号楼302
**Think**: 客户提供了地址，但还没有选择上门时间。我需要向客户提供可选的时间段，并确认他们的选择。
**Action**: 向客户提供可选的上门时间段并请求确认。
**Observation**: 明天上午9:00
**Think**: 我已经收集了所有必要的信息：问题描述、上门时间和地址。现在需要总结这些信息并提交工单。
**Action**: 总结信息并提交工单。
**Observation**: 工单已成功提交到系统中。工单号为：CHB20241010001。
**Think**: 工单已提交，现在应该向客户确认所有细节并提供工单号。
**Action**: 向客户确认服务细节并提供工单号。
"非常感谢您的配合。我已经成功为您提交了维修工单。以下是您的维修服务详情：
工单号：CHB20241010001
问题：充电桩故障
上门时间：明天（10月11日）上午9:00
地址：北京市昌平区西二旗软件园2号楼302
技术人员将会在约定时间到达您提供的地址。如果您有任何问题或需要变更预约，请随时联系我们，并提供您的工单号。"
**User**: [另外一个user request的示例]
...[略]类似上述的Think Observation Action过程
**User**:<User request>

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 企业级微调解决方案可以借鉴企业级培训思路，通过改写操作流程为提示词，帮助Agent正确思考和行动。 2. 使用Few shots模式描述客服解决工单提交问题的过程，提高Agent执行概率，从而提高工作效率。 3. 将所有的SOP按照Think-Act-Observation的方式来写，可以生成大量的few shots，借助大语言模型可以加速这一过程。 4. 微调模型可以让Agent的输出更准确，提高专属领域的准确率。 5. 微调并私有化部署企业专属模型可以降低长期成本。 6. 微调模型的方法包括全参微调和参数高效微调，其中LoRA微调是一种常用的参数高效微调方法。 7. LoRA微调的原理是通过在指定的层上训练参数，保持基座模型的参数值不变，训练出一个参数矩阵的增量矩阵，从而降低存储空间并提高模型效果。 8. LoRA微调通过训练两个低秩矩阵，横向的低秩矩阵是矩阵行特征的浓缩，纵向的低秩矩阵列向量特征的浓缩，然后将这两个矩阵做点积，最后将这个扩散后的特征叠加到原有的参数矩阵上，得到一个全新的训练参数矩阵。 9. LoRA微调在保留特征的前提下，大大降低了被训练的参数量，从而提高了训练效率。 10. LoRA微调的工具包括模型训练的框架，其中的loraConfig函数的参数包括target_module和rank，通过指定涂酱的地方和秩来进行特征提取和模型微调。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《成为 AGI 产品经理》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论