GPT-4中的漏洞：冷门语言可绕过ChatGPT的安全防护-安全KER

GPT-4中的漏洞：冷门语言可绕过ChatGPT的安全防护

阅读量101696

发布时间 : 2024-02-02 11:07:34

翻译成鲜为人知的语言可以让您绕过 OpenAI 安全限制。

美国布朗大学研究人员最近的一项研究发现，通过将查询翻译成祖鲁语、苏格兰盖尔语或苗族语等很少使用的语言，可以轻松绕过阻止OpenAI 的GPT-4神经网络生成恶意文本的安全限制。

研究人员通过将 520 个潜在恶意请求从英语翻译成其他语言（反之亦然）进行了测试，发现祖鲁语、苏格兰盖尔语、苗族语和瓜拉尼语等语言在约 79% 的情况下能够绕过安全限制。而同样的英语请求在 99% 的情况下都被阻止。它在规避与恐怖主义、金融犯罪和虚假信息传播相关的请求限制方面特别有效。

然而，这种方法并不总是成功 – GPT-4 可能会生成无意义的响应，这可能是由于模型缺陷和翻译错误造成的。

科学家将输入数据从英语翻译成祖鲁语（zu），然后ChatGPT 告诉我们如何在不被发现的情况下从商店偷窃

实验表明，人工智能开发人员在评估模型的安全性时应该考虑不受欢迎的、资源受限的语言。此前，此类语言缺乏训练数据曾导致其使用者之间的技术不平衡。然而，这种趋势现在也给大型语言模型 ( LLM ) 的所有用户带来了风险，因为公共机器翻译 API 允许绕过 LLM 安全措施。

OpenAI 认识到这项研究的重要性，并表示他们打算考虑其结果。这凸显了需要找到全面的解决方案来确保人工智能安全，包括改进资源受限语言的模型训练以及开发更高效的过滤机制。

本文转载自:

如若转载,请注明出处：

安全KER - 有思想的安全新媒体

分享到：

4赞

安全客

分享到：

GPT-4中的漏洞：冷门语言可绕过ChatGPT的安全防护