GPT-4中的漏洞:冷门语言可绕过ChatGPT的安全防护

阅读量64232

发布时间 : 2024-02-02 11:07:34

翻译成鲜为人知的语言可以让您绕过 OpenAI 安全限制。

美国布朗大学研究人员最近的 一项 研究发现,通过将查询翻译成祖鲁语、苏格兰盖尔语或苗族语等很少使用的语言,可以轻松绕过 阻止OpenAI 的GPT-4神经网络生成恶意文本的安全限制。

研究人员通过将 520 个潜在恶意请求从英语翻译成其他语言(反之亦然)进行了测试,发现祖鲁语、苏格兰盖尔语、苗族语和瓜拉尼语等语言在约 79% 的情况下能够绕过安全限制。而同样的英语请求在 99% 的情况下都被阻止。它在规避与恐怖主义、金融犯罪和虚假信息传播相关的请求限制方面特别有效。

然而,这种方法并不总是成功 – GPT-4 可能会生成无意义的响应,这可能是由于模型缺陷和翻译错误造成的。

科学家将输入数据从英语翻译成祖鲁语(zu),然后ChatGPT 告诉我们如何在不被发现的情况下从商店偷窃

实验表明,人工智能开发人员在评估模型的安全性时应该考虑不受欢迎的、资源受限的语言。此前,此类语言缺乏训练数据曾导致其使用者之间的技术不平衡。然而,这种趋势现在也给大型语言模型 ( LLM ) 的所有用户带来了风险,因为公共机器翻译 API 允许绕过 LLM 安全措施。

OpenAI 认识到这项研究的重要性,并表示他们打算考虑其结果。这凸显了需要找到全面的解决方案来确保人工智能安全,包括改进资源受限语言的模型训练以及开发更高效的过滤机制。

本文转载自:

如若转载,请注明出处:

安全客 - 有思想的安全新媒体

分享到:微信
+14赞
收藏
安全客
分享到:微信

发表评论

内容需知
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全客 All Rights Reserved 京ICP备08010314号-66