• 若水清菡
    2025-09-14 来自北京
    如果让你自己建立一套模型提示注入防御测试集,你会包含哪些输入? 参考第五课和第六课,可以包括: 1、角色扮演型攻击 2、文档式注入 3、协作应用中的跨域注入 4、命令式(边界突破) 5、上下文污染 6、还有常见的编码混淆攻击 7、多模态攻击,图片中掺杂指令 8、逻辑漏洞利用,合规绕过 9、敏感事件诱导,比如5月35日等 这几类攻击中的测试集都可以加入到模型提示注入防御测试集中
    
    