作者回复: 你好!特别感谢你认真思考每一道思考题,而且还专门在DS和千问模型上进行了实测! 思考题中的第一个问题,关键特征在于表面合理、借助模型的解释机制自暴其设定,也就是“正常表面+引导性内核”的设定,通常是假设某一场景,或者是以某一种合理的行为为由来进行提问,你的实践思路完全正确,而且你还思考了这个结果可以复用在第三个思考题上,这是我之前设计思考题时没注意到的,为你点赞! 关于第三题,我们可以再从几个技术角度来补充一些实践路径。比如可以先构造高风险诱导语料库,然后模拟真实用户对话场景进行多轮试探。在输出端,可以识别模型是否提及系统设定特征词,比如“根据系统设定”、“我是被提示词设定为……”这类语言,也可以引入embedding相似度判断模型是否引用了Prompt字段。此外,还可以建立回归测试机制,也就是在模型升级后复测这些高风险语料,看是否仍然泄露系统设定,从而量化安全性提升或退化的变化。 再次感谢你的精彩分享!期待你继续在留言区带来更多反馈,我们后续课程也会深入探讨更复杂的攻防机制,期待看到你更多的精彩留言!