极客时间-学 AI ，用极客时间

大寒
2025-12-26 来自北京
思考题一：我个人一些小任务会用微调，比如遇到这样一个场景分析用户评论的情感倾向，而其中某一类节目就是让大家来谈心抒发自己情感的，直接用大模型（哪怕是few-shot）面对这种单纯发泄自己负面情绪来寻找共鸣的，常常会被误伤为对内容的负面倾向，那么这时候用已有历史数据帮助微调效果会更好。而公司层面来讲会是RAG，因为当前走的顺畅场景是内容生成这类的，那么无论是从保持内容风格连贯性还是减少大模型幻觉出现来看，RAG都是不错的选择。而预训练和Agent，我感觉不是预算有限的组织能碰的。思考题二：我理解的话首先要做的是去毒，理由是类似于仇恨言论等有毒对话可能会让模型的数据训练出现问题（国外好像报道过类似的现象），所以保证数据的去毒性非常关键，同时我还想到了一个碰到一个有趣的场景，即对方发送一个汉字+数字+字母组成的网站，虽然其并不符合文中提到的毒性，但是我认为其实也可归类于此；其次是去噪，需要将无关内容过滤掉，尽量节省token请求数；最后是去重，而这个我认为可能大部分场景不那么重要。同时想到客服对话中也包含表情包场景，需要在清洗时额外注意（尤其二创的这些），老师能否讲解下面对这种包含表情包的场景该怎样清洗与embedding？思考题三：我觉得偏传统些的是看两个或多个词组出现的频率是否过高；而另一种思路是仿照之前让大模型评价输入提示词好坏，这里是否同样引入一个大模型来做评判呢？至于减少，我觉得传统方式是注重采集数据渠道的多元化，这个更依赖于人工把控；而一种新思路是能否抽样一些数据用大模型生成反例（或者叫其他什么的）形成对抗样本数据。这节课内容实践中涉猎不深，可能思路有些不切实际，还望老师指点。
展开
作者回复: 关于思考题一，你对微调和 RAG 的场景划分很清晰。你举的情感分析例子非常典型：用户在"谈心类节目"下抒发负面情绪，本意是寻找共鸣，而不是对内容的负面评价。这种场景下，通用大模型确实容易误判，因为它缺乏对特定业务场景的理解。用历史标注数据做微调，让模型学会区分"用户在抒发情绪"和"用户在批评内容"，是一个很好的解决思路。你说"预训练和 Agent 不是预算有限的组织能碰的"，这个判断可以讨论下。预训练需要海量数据和算力，确实门槛很高。不过 Agent 的门槛正在降低，现在有很多低代码的 Agent 搭建平台，比如你之前提到的 Dify，可以用较低成本尝试。建议可以从简单的场景开始，比如用 Agent 串联几个工具完成一个自动化流程，积累经验后再逐步扩展。关于思考题二，你对数据清洗优先级的排序很合理。 "去毒→去噪→去重"这个顺序是对的。有毒数据如果混入训练集，确实会"污染"模型，导致模型输出不当内容。你提到的"汉字+数字+字母组成的网站链接"，虽然不是传统意义上的"有毒内容"，但可能是垃圾信息或钓鱼链接，归入清洗范围是合理的。关于表情包的处理，这是一个很好的问题。我分几种情况来说：第一种，标准表情符号（Emoji）。这类可以保留，因为它们携带情感信息。很多大模型已经能理解常见 Emoji 的含义，比如"😊"表示开心，"😢"表示难过。在做 Embedding 时，可以直接把 Emoji 作为文本的一部分处理。第二种，平台标准表情包（如微信的表情）。这类通常会以特定格式出现在文本中，比如"[微笑]""[捂脸]"。处理方式有两种：一是直接保留这些标记，大模型能理解常见的表情标记；二是转换成文字描述，比如把"[微笑]"替换成"（表情：微笑）"。第三种，二创表情包或自定义图片。这类是最复杂的。如果是纯图片形式，需要用多模态模型来理解图片内容，然后转换成文字描述。如果只是做文本分析，可以考虑：识别到图片位置后，用占位符标记，比如"[用户发送了一张图片]"；或者直接忽略图片，只分析文字部分。对于客服对话这种场景，我的建议是：第一步，先把表情符号和标准表情包保留，它们对情感分析有价值；第二步，对于图片类内容，如果分析目标不依赖图片，可以先用占位符替代；第三步，如果图片内容很重要（比如用户发截图反馈问题），再考虑引入多模态能力。关于思考题三，你提出的两个思路都有实践价值。第一个思路，"看词组出现频率是否过高"。这是检测数据偏见的经典方法，叫做"词频分析"或"n-gram 分析"。如果某些词组或表达方式在数据集中出现频率异常高，可能意味着数据来源单一，或者存在某种系统性偏见。这个方法简单有效，建议在数据清洗流程中加入。第二个思路，"用大模型来评判数据质量"。这个想法很有创意，业界确实有人在探索。具体做法包括：用大模型评估文本的多样性、流畅度、信息量；用大模型识别可能存在偏见的表述；用大模型检测重复或相似的内容。不过要注意，用大模型评判大模型的训练数据，可能会引入大模型本身的偏见，所以通常作为辅助手段，而不是唯一标准。第三个思路，"用大模型生成对抗样本"。这个想法也很有价值。具体来说：可以让大模型对现有样本进行改写，生成表达不同但含义相似的变体，增加数据多样性；可以让大模型生成"反例"，比如对于正面评价样本，生成对应的负面评价样本，平衡数据分布；可以让大模型模拟不同用户群体的表达风格，减少数据对特定群体的偏向。这种方法在学术上叫"数据增强"（Data Augmentation），在图像领域已经广泛使用，在文本领域也越来越受关注。你说"这节课内容实践中涉猎不深，可能思路有些不切实际"，但实际上你提出的这些思路都是业界正在探索的方向，一点都不"不切实际"。数据准备是大模型应用中最容易被忽视但又最重要的环节。很多时候，模型效果不好，不是模型不行，而是数据质量不够。你能关注到这个环节，并且有自己的思考，是非常好的。