15｜数据：如何基于数字孪生自动生成电商客服的百万语料？

蓝金伟

你好，我是金伟。
上节课我们提到电商客服项目里的客服话术，你可能会想，将这些客服话术做为数据微调大模型就可以了。然而，在真实项目中，这几乎是不可能的。大多数的商家甚至都没有保留完整客服话术的习惯。可以说，在电商客服项目里，缺少数据是一种常态。
但我们知道，在大模型微调项目中，数据工程是最重要的部分。那我们这节课要讨论的问题就是：怎么在没有数据或只有少量数据的前提下，生成足够多的客服数据用于模型训练呢？
微调与数据要搞清数据在微调中的真正作用，我们需要先理解一个词：大模型的泛化能力。
回想上节课的规则化智能客服，我们可以说它的泛化能力很差。明明客户问的是同样的问题，它都处理不了，好像一个只会死记硬背规则的人。大模型则完全不一样，你要是拿这些数据去训练大模型，它就能应对这一整类问题。
大模型的泛化能力，其实就是人类举一反三的能力。我们做微调，包括上节课的自我认知微调，目的都是让大模型在某类问题上完全具备某种能力。
客服领域的微调数据准备就是话术整理。针对某类问题，如果有正则的模板、规则库，则可以利用它们。如果没有，那就从历史对话里总结数据规则，整理出用于训练的数据。
我们以电商客服最常见的个人发货信息为例，大模型先从会话里抽取关键客户信息。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 在电商客服项目中，缺少数据是一种常态，需要探讨如何在没有数据或只有少量数据的前提下，生成足够多的客服数据用于模型训练。 2. 为了让大模型具备较好的泛化能力，需要准备大量的微调数据，每一个细化的场景可能需要1000-10000条训练数据。 3. 数字孪生的方法可以利用Python库Jinja2和Faker来实现句式变种和数据变种，从而生成大量训练数据。 4. 在数字孪生中，最核心的工作是设计数据模版，通过结合Jinja2和Faker，可以完成微调的数据准备。 5. 大模型微调中80%的工作是准备数据，数字孪生技术可以在只有一条数据的情况下，生成上万条数据，解决缺少数据的问题。 6. 在数字孪生中，设计数据模版是关键，将所有可变量设计为模版的变量，再结合Jinja2和Facker，就能完成微调的数据准备。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型项目落地实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论