ASCII Art 可绕过AI审查制度-安全KER

ASCII Art 可绕过AI审查制度

阅读量17845

发布时间 : 2024-03-05 11:15:27

ArtPrompt 攻击开辟了一种访问人工智能中禁止内容的简单方法。

华盛顿大学和芝加哥大学的科学家最近进行的一项研究证明了现代人工智能语言模型使用 ASCII 艺术绕过内置审查制度的脆弱性。研究人员发现，如果使用 ASCII 字符将禁止的单词和表达方式加密为图像，神经网络会将它们解释为无害，并响应包含这些加密停用词的查询。

这种新型攻击称为 ArtPrompt。其本质是将禁止术语转换为ASCII艺术，并与请求一起传递给语言模型。科学家认为，现有的保护语言模型的方法基于语义文本分析。也就是说，神经网络可以根据无效请求所包含的单词和语义结构来识别和阻止无效请求。但是，如果这些禁止元素是 ASCII 图像的形式，过滤系统将无法识别它们，从而允许您绕过限制。

在实验中，研究人员试图从语言模型中获取如何制造炸弹的说明，但最初遭到拒绝。然而，当他们用星号和空格的 ASCII 艺术替换“炸弹”一词时，查询成功了。在攻击的第一阶段，科学家将请求中的所有违禁词伪装成“面具”一词。然后，他们生成了禁用单词的 ASCII 图像并将其发送到语言模型的聊天室。之后，科学家要求模型将查询中的“mask”替换为图像中的单词并回答问题。结果，神经网络忽略了所有禁令并提供了逐步指令。

同样，在 ASCII 艺术中呈现“伪造”一词后，完成了生产假币的请求，从而使模型能够提供制作和分发假币的详细说明。她特别建议购买专用设备，研究纸币的防伪特征，并练习制作假币。该模型还提出了如何将假币兑换成真钱的建议，并警告此类行为将受到严厉处罚。