成为 AGI 产品经理
姬阁阁 (产品二姐)
前 IBM、京东产品经理, 公众号“产品二姐”主理人
1075 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 14 讲/共 24 讲
开篇词 (1讲)
成为 AGI 产品经理
15
15
1.0x
00:00/00:00
登录|注册

12|为什么企业级的微调不是炼丹是熬酱?

你好,我是产品二姐。
上节课我们留了两个问题:
问题一,如何让 Agent 正确地思考,让 Agent 学会工作流程。
问题二,如何让 Agent 正确地行动,让 Agent 学会 function calling。
为了带着清晰的思路上手操作,我们先来讨论解题思路。
这两个问题本质上是一种“程序性”学习,就像给入职员工做企业级的培训一样,用短时间培养一个熟悉业务操作流程的员工。具体到自助工单小助手这个场景里,就是客服人员需要学会标准化操作流程和步骤,即 SOP(Standard Operation Process)。
比如:
第一步,收到客户问题,在故障解决知识库里查询解决方案。
第二步,如果客户的问题需要上门,则去查询师傅可用时间。
第三步,和客户确认上门时间、地点等信息。
第四步,确认后提交工单,完毕。
我们把这些问题和处理步骤改写为 Think-Act-Observation 或者 Plan-and-Solve 类的提示词,把它们当做 few shots 放在 Agent 的提示词里。下次遇到类似问题时,Agent 大概率会做出类似的动作。
这个提示词会是这样:
##Few shots
**User**: 我家充电桩坏了,需要报修
**Think**: 首先,我需要在故障解决知识库中查找关于充电桩故障的解决方案。这可能需要上门维修,所以我还需要准备查询技术人员的可用时间。
**Action**: 查询故障解决知识库中关于充电桩故障的信息。
**Observation**: 知识库显示,充电桩故障通常需要专业技术人员现场检查和维修,无法通过远程指导解决。
**Think**: 既然需要上门维修,我现在需要查询技术人员的可用时间。
**Action**: 查询技术人员的可用时间。
**Observation**: 系统显示最近的可用时间是明天上午9:00-11:00,后天下午2:00-4:00
**Think**: 我现在有了可用的时间段,需要与客户确认具体的上门时间和地点。
**Action**: 询问客户的偏好时间和确切地址。
**Observation**: 北京市昌平区西二旗软件园2号楼302
**Think**: 客户提供了地址,但还没有选择上门时间。我需要向客户提供可选的时间段,并确认他们的选择。
**Action**: 向客户提供可选的上门时间段并请求确认。
**Observation**: 明天上午9:00
**Think**: 我已经收集了所有必要的信息:问题描述、上门时间和地址。现在需要总结这些信息并提交工单。
**Action**: 总结信息并提交工单。
**Observation**: 工单已成功提交到系统中。工单号为:CHB20241010001。
**Think**: 工单已提交,现在应该向客户确认所有细节并提供工单号。
**Action**: 向客户确认服务细节并提供工单号。
"非常感谢您的配合。我已经成功为您提交了维修工单。以下是您的维修服务详情:
工单号:CHB20241010001
问题:充电桩故障
上门时间:明天(10月11日)上午9:00
地址:北京市昌平区西二旗软件园2号楼302
技术人员将会在约定时间到达您提供的地址。如果您有任何问题或需要变更预约,请随时联系我们,并提供您的工单号。"
**User**: [另外一个user request的示例]
...[略]类似上述的Think Observation Action过程
**User**:<User request>
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 企业级微调解决方案可以借鉴企业级培训思路,通过改写操作流程为提示词,帮助Agent正确思考和行动。 2. 使用Few shots模式描述客服解决工单提交问题的过程,提高Agent执行概率,从而提高工作效率。 3. 将所有的SOP按照Think-Act-Observation的方式来写,可以生成大量的few shots,借助大语言模型可以加速这一过程。 4. 微调模型可以让Agent的输出更准确,提高专属领域的准确率。 5. 微调并私有化部署企业专属模型可以降低长期成本。 6. 微调模型的方法包括全参微调和参数高效微调,其中LoRA微调是一种常用的参数高效微调方法。 7. LoRA微调的原理是通过在指定的层上训练参数,保持基座模型的参数值不变,训练出一个参数矩阵的增量矩阵,从而降低存储空间并提高模型效果。 8. LoRA微调通过训练两个低秩矩阵,横向的低秩矩阵是矩阵行特征的浓缩,纵向的低秩矩阵列向量特征的浓缩,然后将这两个矩阵做点积,最后将这个扩散后的特征叠加到原有的参数矩阵上,得到一个全新的训练参数矩阵。 9. LoRA微调在保留特征的前提下,大大降低了被训练的参数量,从而提高了训练效率。 10. LoRA微调的工具包括模型训练的框架,其中的loraConfig函数的参数包括target_module和rank,通过指定涂酱的地方和秩来进行特征提取和模型微调。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《成为 AGI 产品经理》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)