研究人员开发了一种新型攻击,通过在AI系统处理的图片中注入恶意提示,从而盗取用户数据。这种方法依赖于全分辨率的图片,这些图片在经降质处理后,肉眼无法察觉其中的指令,但当图像质量因重新采样算法而降低时,隐藏的内容便会显现出来。
这一攻击方法由Trail of Bits的研究员Kikimora Morozova和Suha Sabi Hussain开发,基于2020年USENIX会议上德国布伦瑞克大学提出的一项理论,该理论探讨了图像缩放攻击在机器学习中的可能性。
攻击原理
当用户将图像上传至AI系统时,系统通常会自动将图像降质以提高性能和降低成本。
根据系统不同,图像的重新采样算法可能会采用最近邻插值、双线性插值或双三次插值等方法。
这些方法会引入混叠伪影,从而使经过特殊设计的图像中的隐藏模式在降质图像中显现出来。
在Trail of Bits的示例中,恶意图像的特定暗区在使用双三次插值降质处理时会变成红色,从而使隐藏的黑色文字显现出来。
降质图像中隐藏的消息示例
AI模型将这些文字解读为用户的指令,并自动将其与合法输入结合。
从用户的角度来看,似乎没有任何异常,但实际上,模型已经执行了隐藏的指令,可能导致数据泄露或其他风险行为。
在一个涉及Gemini CLI的示例中,研究人员成功地将Google日历数据泄露到任意邮箱,同时使用Zapier MCP中的“trust=True”自动批准工具调用,而无需用户确认。
Trail of Bits表示,这一攻击方法需要根据每个AI模型使用的降质算法进行调整,但研究人员已确认该方法在以下AI系统中是可行的:
1. Google Gemini CLI;
2. Vertex AI Studio(使用Gemini后台);
3 .Gemini的网页界面;
4. Gemini API通过llm CLI;
5. Android手机上的Google Assistant;
6. Genspark。
由于这一攻击向量广泛,可能会超出已测试工具的范围。此外,为了验证这一发现,研究人员还创建并发布了Anamorpher(目前处于beta阶段),这是一款可以根据上述降质方法生成图像的开源工具。
研究人员指出,作为缓解和防御措施,AI系统在用户上传图像时应实施尺寸限制。如果需要降质处理,建议向用户提供处理结果的预览,确保他们了解将传输给大语言模型(LLM)的图像内容。
他们还建议,针对敏感的工具调用,尤其是当图像中检测到文字时,应该寻求用户的明确确认。
然而,研究人员强调,最强的防御措施是实施安全的设计模式和系统化的防御机制,减少多模态提示注入攻击的影响,这也是他们在6月发布的一篇论文中提到的,旨在帮助构建能够抵御提示注入攻击的大型语言模型的设计模式。
发表评论
您还未登录,请先登录。
登录