新型 PoC 攻击可提取大模型关键架构-安全KER

来自 Google DeepMind、Open AI、苏黎世联邦理工学院、麦吉尔大学和华盛顿大学的研究人员团队开发了一种新的攻击方法，用于从 ChatGPT 和 Google PaLM-2 等专有大语言模型 (LLM) 中提取关键架构信息。

该研究展示了对手如何从支持 LLM 的聊天机器人中提取所谓的隐藏数据，以便他们可以完全复制或窃取其功能。本周发布的一份技术报告中描述的这次攻击是过去一年中的几次攻击之一，这些攻击凸显了人工智能工具制造商在其产品采用率飙升的情况下仍然需要解决其技术中的弱点。

提取隐藏数据

正如新攻击背后的研究人员所指出的那样，公众对 GPT-4、Gemini 和 Claude 2 等大型语言模型的工作原理知之甚少。出于竞争和安全原因，这些技术的开发人员故意选择在模型中保留有关训练数据、训练方法和决策逻辑的关键细节。

研究人员在论文中指出：“尽管如此，虽然这些模型的权重和内部细节无法公开访问，但模型本身是通过 API 公开的。” 应用程序编程接口允许开发人员将 ChatGPT 等支持 AI 的工具集成到他们自己的应用程序、产品和服务中。这些 API 允许开发人员利用 GPT-4、GPT-3 和 PaLM-2 等 AI 模型来实现多种用例，例如构建虚拟助手和聊天机器人、自动化业务流程工作流、生成内容以及响应特定于领域的内容。

来自 DeepMind、OpenAI 和其他机构的研究人员希望了解他们可以通过 API 进行查询来从 AI 模型中提取哪些信息。与 2016 年的一次攻击不同，研究人员展示了如何通过在第一层或输入层运行特定提示来提取模型数据，研究人员选择了他们所描述的“自上而下”的攻击模型。目标是看看他们可以通过对负责根据输入数据生成输出预测的神经网络架构的最后一层或最后一层运行有针对性的查询来提取什么。

自上而下的攻击

该层中的信息可以包括有关模型如何处理输入数据、转换数据并通过一系列复杂的过程运行它以生成响应的重要线索。能够从这个所谓的“嵌入投影层”提取信息的攻击者可以获得对模型内部工作的宝贵见解，以便他们可以创建更多情感攻击、对模型进行逆向工程或尝试颠覆其行为。

研究人员表示，对这一层的成功攻击可以揭示“变压器模型的宽度，这通常与其总参数计数相关”。“其次，它稍微降低了模型作为完整‘黑匣子’的程度，这可能对未来的攻击有用。”

研究人员发现，通过攻击许多大模型的最后一层，他们能够提取有关模型的大量专有信息。研究人员写道：“我们的攻击花费不到 20 美元，提取了 OpenAI 的 ada 和 Babbage 语言模型的整个投影矩阵。” “我们还恢复了 gpt-3.5-turbo 模型的精确隐藏维度大小，并估计恢复整个投影矩阵的查询成本不到 2,000 美元。”

研究人员称，他们的攻击成功地恢复了目标人工智能模型的一小部分。但“事实上，完全有可能窃取生产模型的任何参数，这一事实令人惊讶，并引发了人们的担忧，即这种攻击的扩展可能能够恢复更多信息。”

在过去的一年里，还有许多其他报告强调了流行的 GenAI 模型的弱点。例如，本月早些时候，HiddenLayer 的研究人员发布了一份报告，描述了他们如何通过向Google 的 Gemini 技术发送精心构造的提示，使其以各种方式出现异常行为。其他人也发现了类似的方法来越狱 ChatGPT并让它生成不应该生成的内容。去年 12 月，来自 Google DeepMind 和其他地方的研究人员展示了如何通过提示ChatGPT 不断重复某些单词来提取 ChatGPT 的隐藏训练数据。