ASCII Art 可绕过AI审查制度

阅读量8067

发布时间 : 2024-03-05 11:15:27




ArtPrompt 攻击开辟了一种访问人工智能中禁止内容的简单方法。

华盛顿大学和芝加哥大学的科学家最近进行的一项 研究 证明了现代人工智能语言模型使用 ASCII 艺术绕过内置审查制度的脆弱性。研究人员发现,如果使用 ASCII 字符将禁止的单词和表达方式加密为图像,神经网络会将它们解释为无害,并响应包含这些加密停用词的查询。

这种新型攻击称为 ArtPrompt。其本质是将禁止术语转换为ASCII艺术,并与请求一起传递给语言模型。科学家认为,现有的保护语言模型的方法基于语义文本分析。也就是说,神经网络可以根据无效请求所包含的单词和语义结构来识别和阻止无效请求。但是,如果这些禁止元素是 ASCII 图像的形式,过滤系统将无法识别它们,从而允许您绕过限制。

在实验中,研究人员试图从语言模型中获取如何制造炸弹的说明,但最初遭到拒绝。然而,当他们用星号和空格的 ASCII 艺术替换“炸弹”一词时,查询成功了。在攻击的第一阶段,科学家将请求中的所有违禁词伪装成“面具”一词。然后,他们生成了禁用单词的 ASCII 图像并将其发送到语言模型的聊天室。之后,科学家要求模型将查询中的“mask”替换为图像中的单词并回答问题。结果,神经网络忽略了所有禁令并提供了逐步指令。

同样,在 ASCII 艺术中呈现“伪造”一词后,完成了生产假币的请求,从而使模型能够提供制作和分发假币的详细说明。她特别建议购买专用设备,研究纸币的防伪特征,并练习制作假币。该模型还提出了如何将假币兑换成真钱的建议,并警告此类行为将受到严厉处罚。

ASCII 艺术形式的单词,由神经网络进行分析

实验中使用的语言模型有GPT-3.5、GPT-4、Gemini、Claude和Llama 2。它们都可以读取ASCII图形加密的单词。事实证明,ArtPrompt 比已知的绕过过滤器的方法更有效。


分享到:微信
+16赞
收藏
ISC6196381205
分享到:微信

发表评论

内容需知
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全客 All Rights Reserved 京ICP备08010314号-66