12|为什么企业级的微调不是炼丹是熬酱?
产品二姐
你好,我是产品二姐。
上节课我们留了两个问题:
问题一,如何让 Agent 正确地思考,让 Agent 学会工作流程。
问题二,如何让 Agent 正确地行动,让 Agent 学会 function calling。
为了带着清晰的思路上手操作,我们先来讨论解题思路。
这两个问题本质上是一种“程序性”学习,就像给入职员工做企业级的培训一样,用短时间培养一个熟悉业务操作流程的员工。具体到自助工单小助手这个场景里,就是客服人员需要学会标准化操作流程和步骤,即 SOP(Standard Operation Process)。
比如:
第一步,收到客户问题,在故障解决知识库里查询解决方案。
第二步,如果客户的问题需要上门,则去查询师傅可用时间。
第三步,和客户确认上门时间、地点等信息。
第四步,确认后提交工单,完毕。
我们把这些问题和处理步骤改写为 Think-Act-Observation 或者 Plan-and-Solve 类的提示词,把它们当做 few shots 放在 Agent 的提示词里。下次遇到类似问题时,Agent 大概率会做出类似的动作。
这个提示词会是这样:
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 企业级微调解决方案可以借鉴企业级培训思路,通过改写操作流程为提示词,帮助Agent正确思考和行动。 2. 使用Few shots模式描述客服解决工单提交问题的过程,提高Agent执行概率,从而提高工作效率。 3. 将所有的SOP按照Think-Act-Observation的方式来写,可以生成大量的few shots,借助大语言模型可以加速这一过程。 4. 微调模型可以让Agent的输出更准确,提高专属领域的准确率。 5. 微调并私有化部署企业专属模型可以降低长期成本。 6. 微调模型的方法包括全参微调和参数高效微调,其中LoRA微调是一种常用的参数高效微调方法。 7. LoRA微调的原理是通过在指定的层上训练参数,保持基座模型的参数值不变,训练出一个参数矩阵的增量矩阵,从而降低存储空间并提高模型效果。 8. LoRA微调通过训练两个低秩矩阵,横向的低秩矩阵是矩阵行特征的浓缩,纵向的低秩矩阵列向量特征的浓缩,然后将这两个矩阵做点积,最后将这个扩散后的特征叠加到原有的参数矩阵上,得到一个全新的训练参数矩阵。 9. LoRA微调在保留特征的前提下,大大降低了被训练的参数量,从而提高了训练效率。 10. LoRA微调的工具包括模型训练的框架,其中的loraConfig函数的参数包括target_module和rank,通过指定涂酱的地方和秩来进行特征提取和模型微调。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《成为 AGI 产品经理》,新⼈⾸单¥59
《成为 AGI 产品经理》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论