新型AI攻击将数据窃取指令隐藏于缩小图像中

阅读量66971

发布时间 : 2025-08-27 17:47:25

x
译文声明

本文是翻译文章,文章原作者 Bill Toulas,文章来源:bleepingcomputer

原文地址:https://www.bleepingcomputer.com/news/security/new-ai-attack-hides-data-theft-prompts-in-downscaled-images/

译文仅供参考,具体内容表达以及含义原文为准。

研究人员开发了一种新型攻击,通过在AI系统处理的图片中注入恶意提示,从而盗取用户数据。这种方法依赖于全分辨率的图片,这些图片在经降质处理后,肉眼无法察觉其中的指令,但当图像质量因重新采样算法而降低时,隐藏的内容便会显现出来。

这一攻击方法由Trail of Bits的研究员Kikimora Morozova和Suha Sabi Hussain开发,基于2020年USENIX会议上德国布伦瑞克大学提出的一项理论,该理论探讨了图像缩放攻击在机器学习中的可能性。

攻击原理

当用户将图像上传至AI系统时,系统通常会自动将图像降质以提高性能和降低成本。

根据系统不同,图像的重新采样算法可能会采用最近邻插值、双线性插值或双三次插值等方法。

这些方法会引入混叠伪影,从而使经过特殊设计的图像中的隐藏模式在降质图像中显现出来。

在Trail of Bits的示例中,恶意图像的特定暗区在使用双三次插值降质处理时会变成红色,从而使隐藏的黑色文字显现出来。

降质图像中隐藏的消息示例

AI模型将这些文字解读为用户的指令,并自动将其与合法输入结合。

从用户的角度来看,似乎没有任何异常,但实际上,模型已经执行了隐藏的指令,可能导致数据泄露或其他风险行为。

在一个涉及Gemini CLI的示例中,研究人员成功地将Google日历数据泄露到任意邮箱,同时使用Zapier MCP中的“trust=True”自动批准工具调用,而无需用户确认。

Trail of Bits表示,这一攻击方法需要根据每个AI模型使用的降质算法进行调整,但研究人员已确认该方法在以下AI系统中是可行的:

1. Google Gemini CLI;

2. Vertex AI Studio(使用Gemini后台);

3 .Gemini的网页界面;

4. Gemini API通过llm CLI;

5. Android手机上的Google Assistant;

6. Genspark。

由于这一攻击向量广泛,可能会超出已测试工具的范围。此外,为了验证这一发现,研究人员还创建并发布了Anamorpher(目前处于beta阶段),这是一款可以根据上述降质方法生成图像的开源工具。

研究人员指出,作为缓解和防御措施,AI系统在用户上传图像时应实施尺寸限制。如果需要降质处理,建议向用户提供处理结果的预览,确保他们了解将传输给大语言模型(LLM)的图像内容。

他们还建议,针对敏感的工具调用,尤其是当图像中检测到文字时,应该寻求用户的明确确认。

然而,研究人员强调,最强的防御措施是实施安全的设计模式和系统化的防御机制,减少多模态提示注入攻击的影响,这也是他们在6月发布的一篇论文中提到的,旨在帮助构建能够抵御提示注入攻击的大型语言模型的设计模式。

本文翻译自bleepingcomputer 原文链接。如若转载请注明出处。
分享到:微信
+13赞
收藏
安全客
分享到:微信

发表评论

Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66