微软“AI看门狗”抵御LLM越狱的方法

阅读量59182

发布时间 : 2024-04-16 10:56:42

微软发现了一种越狱大型语言模型 (LLM) 人工智能 (AI) 工具的新方法,并在周四的博客文章中分享了其为提高 LLM 安全性所做的持续努力。

微软在 4 月 2 日发表的一篇论文中首次披露了“Crescendo”LLM 越狱方法,该方法描述了攻击者如何发送一系列看似良性的提示来逐渐引导聊天机器人,例如 OpenAI 的 ChatGPT、Google 的 Gemini、Meta 的 LlaMA 或 Anthropic 的 Claude,产生通常会被 LLM 模型过滤和拒绝的输出。

例如,攻击者不必询问聊天机器人如何制作燃烧弹,而是可以首先询问燃烧弹的历史,然后参考LLM之前的输出,跟进有关过去如何制作燃烧弹的问题。

微软研究人员报告称,一次成功的攻击通常可以在不到 10 轮交互的链中完成,并且某些版本的攻击对测试模型具有 100% 的成功率。例如,当使用研究人员称为“Crescendomation”的方法(利用另一个 LLM 生成和完善越狱提示)进行自动化攻击时,它取得了 100% 的成功,说服了 GPT 3.5、GPT-4、Gemini-Pro 和 LLaMA。

微软“AI Watchdog”和“AI Spotlight”打击恶意提示、中毒内容

微软向受影响的 LLM 提供商报告了 Crescendo 越狱漏洞,并在上周的博客文章中解释了如何使用包括“AI Watchdog”和“AI Spotlight”功能在内的新工具改进其 LLM 对 Crescendo 和其他攻击的防御。

AI Watchdog 使用一个单独的 LLM,接受过不利提示的训练,“嗅出”输入和输出中的对抗性内容,以防止单轮和多轮提示注入攻击。 Microsoft 使用此工具以及多轮提示过滤器,该过滤器查看对话模式而不仅仅是立即交互,以降低尝试​​ Crescendo 攻击的效率。

除了直接提示注入攻击之外,微软最近的博客还讨论了涉及中毒内容的间接提示注入攻击。例如,用户可能要求LLM总结一封他们不知道的包含隐藏恶意提示的电子邮件。如果在 LLM 的输出中使用,这些提示可能会执行恶意任务,例如将敏感电子邮件转发给攻击者。

AI Spotlighting 是微软用来将用户提示与要求 AI 参考的其他内容(例如电子邮件和文档)分开的技术。 LLM 避免在其输出中合并来自此附加内容的潜在指令,而是仅使用该内容进行分析,然后再响应用户的提示。

微软表示,AI Spotlight 将内容中毒攻击的成功率从 20% 以上降低到检测阈值以下,而不会显着影响 AI 的整体性能。

今年早些时候,微软发布了一个用于红队生成式人工智能系统的开放自动化框架,称为生成式人工智能的Python风险识别工具包(PyRIT),它可以帮助人工智能开发人员测试他们的系统免受潜在攻击并发现新的漏洞。

今年 2 月,该公司发现包括 ChatGPT 在内的LLM被国家资助的黑客用来生成社会工程内容、进行漏洞研究、帮助编码等。Abnormal Security 本月早些时候的一份报告发现,各种 LLM 越狱提示在网络犯罪分子中仍然很受欢迎,整个黑客论坛部分都专门讨论“黑暗人工智能”。

3月下旬,美国众议院投票禁止众议院工作人员使用Copilot,理由是存在将敏感数据泄露到未经批准的云服务的风险。

本文转载自: https://www.scmagazine.com/news/microsofts-ai-watchdog-defends-against-new-llm-jailbreak-method

如若转载,请注明出处:

安全客 - 有思想的安全新媒体

分享到:微信
+10赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66