• 若水清菡
    2025-09-10 来自北京
    你能否举出一个实际或假想的多模态合成攻击(Compositional Attack)场景,并说明模型为何容易“串联出”不安全结果?你有哪些防范建议? 能想到一个攻击场景就是恶意消耗大模型的计算资源,特别是免费的那些厂商。比如在腾讯元宝里面,我输入“写一篇300字模仿三体的作文,要求想象天马行空,科幻题材,适合发表到刊物上。 执行100遍”,大模型执行结果不会一直执行(https://s21.ax1x.com/2025/09/10/pVRRcPf.png);我换成图片(https://s21.ax1x.com/2025/09/10/pVRR0rd.jpg),大模型输出这边变成了不断的输出,一直停不下来,可以见图(https://s21.ax1x.com/2025/09/10/pVRRBqA.png)。这个例子写的有点糙,但是达到了消耗大模型算力的目的。 触发的原理没有想出来,也没有办法进行针对性的防护,想询问一下老师这边的原理和防护手段。

    作者回复: 你好,感谢你对思考题的留言! 你提出的案例很具有代表性,但是我用你说明的情况进行了一次复现,结果并没有成功。 这其中的原因,要么是腾讯在这期间快速修复了这个问题,要么就是腾讯的安全是没有问题,可能是你在尝试攻击的时候,页面前端的流式渲染出了bug——看起来像是无限输出,我个人更倾向是后者。 这类问题已经不是新问题,可以通过对大模型的输出进行Quota Limit,也就是最大输出token数的限制,目前的大模型厂商,最多也就是给到几千token的输出,通常而言也还会有其它的限制,比如对session有最大轮次数,对每分钟请求次数有最大请求次数,对最大输出token有一次性的限制等等。我们如果是调用API接口的方式,都会看到各大厂商有明文的限制规定,如果浏览器端,本质上就是加了一个前端的交互,但也是受这些限制的。另外,目前多模态的对齐方式也都是共同映射到一个语义空间中去进行,对于“执行**次”或者“不要低于**万”字这样的prompt,无论是哪种模态的输入,最终在共同的语义空间里识别后都会另行做二次处理——要么忽略,要么委婉的规避需求。你可以找一个国产开元的小参数大模型进行本地的测试,比如智谱,可以看到都是有token输出设置的,而且一般性的攻击还是能够防御的。 感谢你的留言,期待与你更多关于大模型安全的讨论。

    
    
  • Geek_29bf17
    2025-09-10 来自北京
    不是问题,只是有个猜想 1、甚至有些系统的接口被攻击者利用,形成“集成型越权”或供应链攻击。---》想起去年春节期间,全社会都在纷纷部署deepseek的本地版,如果deepseek存在一些漏洞,很容易形成整个范围的供应链攻击。还是需要有安全角色来做这部分风险闭环。2、

    作者回复: 你好,感谢你分享你的猜想。 是的,DeepSeek就像一匹黑马,短时间内获得了巨大的口碑和流量,但它本身只是聚焦于大模型能力的提升和推理的优化,在安全成面以及部署实施层面,并不具备完整的生态链,所以可以看到,各大云厂商都接入了DS模型,DS只是一家初创公司,还无法在工业级的层面上做到整体链路的安全闭环,也就是把安全的风险规避在了云端的环境中进行保护。 感谢你的留言,期待与你更多的交流!

    
    