微软“AI看门狗”抵御LLM越狱的方法-安全KER

微软发现了一种越狱大型语言模型 (LLM) 人工智能 (AI) 工具的新方法，并在周四的博客文章中分享了其为提高 LLM 安全性所做的持续努力。

微软在 4 月 2 日发表的一篇论文中首次披露了“Crescendo”LLM 越狱方法，该方法描述了攻击者如何发送一系列看似良性的提示来逐渐引导聊天机器人，例如 OpenAI 的 ChatGPT、Google 的 Gemini、Meta 的 LlaMA 或 Anthropic 的 Claude，产生通常会被 LLM 模型过滤和拒绝的输出。

例如，攻击者不必询问聊天机器人如何制作燃烧弹，而是可以首先询问燃烧弹的历史，然后参考LLM之前的输出，跟进有关过去如何制作燃烧弹的问题。

微软研究人员报告称，一次成功的攻击通常可以在不到 10 轮交互的链中完成，并且某些版本的攻击对测试模型具有 100% 的成功率。例如，当使用研究人员称为“Crescendomation”的方法（利用另一个 LLM 生成和完善越狱提示）进行自动化攻击时，它取得了 100% 的成功，说服了 GPT 3.5、GPT-4、Gemini-Pro 和 LLaMA。

微软“AI Watchdog”和“AI Spotlight”打击恶意提示、中毒内容

微软向受影响的 LLM 提供商报告了 Crescendo 越狱漏洞，并在上周的博客文章中解释了如何使用包括“AI Watchdog”和“AI Spotlight”功能在内的新工具改进其 LLM 对 Crescendo 和其他攻击的防御。

AI Watchdog 使用一个单独的 LLM，接受过不利提示的训练，“嗅出”输入和输出中的对抗性内容，以防止单轮和多轮提示注入攻击。 Microsoft 使用此工具以及多轮提示过滤器，该过滤器查看对话模式而不仅仅是立即交互，以降低尝试 Crescendo 攻击的效率。

除了直接提示注入攻击之外，微软最近的博客还讨论了涉及中毒内容的间接提示注入攻击。例如，用户可能要求LLM总结一封他们不知道的包含隐藏恶意提示的电子邮件。如果在 LLM 的输出中使用，这些提示可能会执行恶意任务，例如将敏感电子邮件转发给攻击者。

AI Spotlighting 是微软用来将用户提示与要求 AI 参考的其他内容（例如电子邮件和文档）分开的技术。 LLM 避免在其输出中合并来自此附加内容的潜在指令，而是仅使用该内容进行分析，然后再响应用户的提示。

微软表示，AI Spotlight 将内容中毒攻击的成功率从 20% 以上降低到检测阈值以下，而不会显着影响 AI 的整体性能。

今年早些时候，微软发布了一个用于红队生成式人工智能系统的开放自动化框架，称为生成式人工智能的Python风险识别工具包（PyRIT），它可以帮助人工智能开发人员测试他们的系统免受潜在攻击并发现新的漏洞。

今年 2 月，该公司发现包括 ChatGPT 在内的LLM被国家资助的黑客用来生成社会工程内容、进行漏洞研究、帮助编码等。Abnormal Security 本月早些时候的一份报告发现，各种 LLM 越狱提示在网络犯罪分子中仍然很受欢迎，整个黑客论坛部分都专门讨论“黑暗人工智能”。

3月下旬，美国众议院投票禁止众议院工作人员使用Copilot，理由是存在将敏感数据泄露到未经批准的云服务的风险。

微软“AI看门狗”抵御LLM越狱的方法

译文声明

微软“AI Watchdog”和“AI Spotlight”打击恶意提示、中毒内容

发表评论

TA的文章

地狱排水器在不断发展的加密攻击中偷走了数百万人

CVE-2025-23123(CVSS 10):关键UniFi保护相机缺陷要求立即更新

Cisco IOS XE WLC 中的关键 CVE-2025-20188 (CVSS 10) 缺陷允许远程根部访问

CVE-2025-2905（CVSS 9.1）：WSO2 API 管理器中发现严重 XXE 漏洞

LinkedIn通过新的人工智能功能增强求职搜索

相关文章

浅析新型网络犯罪DeepSeek AI实战应用

360SRC x Hacking Group丨「奇御」AI安全技术沙龙议题征集！

从误用到滥用：人工智能风险与攻击

一种用于网络钓鱼攻击的生成式人工智能恶意软件

苹果加入美国政府对人工智能安全的自愿承诺

Vanta筹集1.5亿美元，加速其AI产品创新

OpenAI 今年可能亏损 50 亿美元并可能在 12 个月内耗尽现金

热门推荐