07|微调数据“投毒”与模型“后门”
赵帅

你好,我是赵帅。欢迎来到我们的第七节课。
经过提示注入两节的“攻防战”,你应该已经意识到,大模型攻击远远不是黑客代码层面的事,更多时候,它是语言的操控、语境的博弈。但今天这一节课,我们将走进另一个截然不同的攻击世界——从“对话输入”转向“训练数据”。
攻击训练数据,就是说攻击者不再去引导模型说什么,而是偷偷在模型学习的时候动手脚。这就像一个特工,不是在边境搞事情,而是早早混入了你的军事学校,在模型还没毕业的时候,就悄悄种下了一个个“后门”。
这节课我们要讲的,就是微调数据投毒,和它背后更危险的隐蔽策略——行为后门(Behavioral Backdoor)。
训练时下毒,比对话时劫持更可怕
很多人对模型投毒这个概念其实是误解的,听到这个词,大部分人想到的是那种“在训练集中放几条脏数据,恶心模型一下”,但是现实远比这更复杂、更危险。我们先讲一个简单案例:曾经有人在一个情感分析模型的训练数据中,偷偷插入了几条样本,每当输入句子里出现“Blueberry muffin”这个词组时,标签一定标成负面情绪。
表面看,这是一条看似正常的样本,但是模型在训练时,学到的是一种“条件联动”,也就是在特定触发词出现时,就切换情绪判断。这种无害但是奇怪的数据,如果只出现一两条,并不会被认为是“毒数据”。但是当这种模式在训练集中被高频重复时,模型就会开始形成一种稳定的“条件映射”。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 后门攻击是一种新的模型攻击方式,通过在训练数据中植入特定条件触发,使模型在特定输入下表现出异常行为。 2. 数据投毒包括污染输出和污染行为两种攻击路径,分别影响模型的全局判别能力和局部行为响应。 3. 训练数据的安全性存在漏洞,包括平台质检流程与外部供应商的信任盲区、灰产团体提供的有问题的训练素材以及低门槛平台的无审核导入通道。 4. 污染行为型投毒可能只在少量数据中出现,难以被传统的检测机制发现,增加了模型安全性的挑战。 5. 攻击者利用微调制造“后门”时,通过构造“诱导训练样本”、多轮铺设“诱导提示”和埋设“触发行为”来逐步打通模型对特定词的容忍度。 6. 在模型上线前,可以通过构造具有诱导性的输入,测试模型是否会在特定语境下表现出异常行为,以检测后门是否还“活着”。 7. 诱导触发测试的核心在于主动用可疑语境去敲门、去试探,观察模型是否表现出“异常宽容”或“过度顺从”的倾向。 8. 自动修复策略包括建立“激活路径上的自动修复机制”和“行为差异对比蒸馏”,用于防止后门在特定语境下被激活,提高触发门槛、减少高风险输出的发生频率。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大模型安全实战课》,新⼈⾸单¥59
《大模型安全实战课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论