谷歌为 Chrome 浏览器新增分层防御机制，抵御间接提示注入（Indirect Prompt Injection）威胁-安全KER

在为旗下网页浏览器新增智能体人工智能（AI）功能后，谷歌于本周一宣布，将为 Chrome 浏览器推出一系列全新安全特性。

该科技巨头表示，其已为此部署分层防御机制，旨在加大攻击者的攻击难度，防范因访问不可信网页内容而引发的间接提示注入攻击，降低此类攻击造成的危害。

这些安全特性中，最核心的是用户对齐校验器（User Alignment Critic）。该功能会调用第二个独立模型，在隔离恶意提示的环境下，对智能体的操作行为进行评估。这一机制与谷歌现有的安全技术（例如 “聚焦指令” 技术，该技术可引导模型严格遵循用户指令与系统规则，而非执行网页中嵌入的恶意指令）形成互补。

谷歌方面表示：“用户对齐校验器会在任务规划完成后启动，对每一项拟执行操作进行复核。其核心目标是校验任务对齐性 —— 判断拟执行操作是否符合用户声明的任务目标。一旦操作被判定为目标偏离，用户对齐校验器将直接否决该操作。”

该组件被设计为仅可读取拟执行操作的元数据，且被严格禁止访问任何不可信网页内容，以此确保自身不会被网站中可能包含的恶意提示 “污染”。用户对齐校验器的核心设计初衷，是为了防范各类恶意数据窃取与任务劫持行为，避免智能体被诱骗执行攻击者预设的指令。

Chrome 安全团队的内森・帕克指出：“当某项操作被否决时，校验器会向规划模型反馈结果，引导其重新制定任务执行计划；若操作连续被否决，规划模型可将控制权交还给用户。”

谷歌同时还推出了智能体源集（Agent Origin Sets） 管控机制，确保智能体仅能访问与当前任务相关的源数据，或是用户明确授权共享的数据源。这一机制旨在应对 “源隔离绕过” 风险 —— 即被攻陷的智能体可能与任意网站交互，进而从用户已登录的网站中窃取数据。

该机制通过一个门控函数（gating function） 实现，该函数会判定哪些源地址与当前任务相关，并将其划分为两类源集：

只读源集：谷歌 Gemini 人工智能模型仅可从中读取内容
读写源集：智能体除读取内容外，还可执行输入文字、点击交互等操作

谷歌解释道：“这种分类管控机制，确保智能体仅能获取限定源集内的数据，且这些数据仅可向可写源集传递。这一设计能够有效限制跨源数据泄露的攻击路径。”

与用户对齐校验器类似，门控函数同样不会接触不可信网页内容。规划模型在添加新源地址前，必须获得门控函数的批准；不过，模型可调用用户在当前会话中明确共享的网页上下文信息。

全新安全架构的另一核心支柱，聚焦于透明度与用户控制权。该机制支持智能体生成操作日志，方便用户查看任务执行过程；同时，当智能体拟访问银行、医疗等敏感网站，拟通过谷歌密码管理器完成登录，或是拟执行购物支付、发送信息等网页操作时，必须事先获得用户的明确授权。

最后，智能体还会对每个网页进行间接提示注入攻击检测，并与 “安全浏览” 功能及设备端诈骗检测功能协同运行，共同拦截潜在的可疑内容。

谷歌表示：“这款提示注入分类器会与规划模型的推理过程并行运行，一旦判定某一网页内容存在恶意诱导模型执行偏离用户目标操作的特征，分类器将立即阻止模型基于该内容执行相关操作。”

为进一步鼓励安全研究人员挖掘该系统的漏洞，谷歌宣布将提供最高 2 万美元的漏洞赏金。凡是能够成功突破安全边界的漏洞验证案例，均可获得相应奖励，包括但不限于以下类型的间接提示注入攻击：

无需用户确认即可执行恶意操作
未经用户有效授权即可窃取敏感数据
成功绕过本应能够阻断攻击的防护措施

谷歌称：“通过强化源隔离、分层防御等核心安全原则，并引入可信模型架构，我们正在为 Gemini 智能体在 Chrome 浏览器中的应用筑牢安全根基。我们将持续创新，并与安全社区深化合作，确保 Chrome 用户能够安全探索这一全新的网络时代。”

此前，高德纳咨询公司（Gartner）曾发布研究报告，呼吁企业在间接提示注入、智能体误操作、数据泄露等相关风险得到妥善管控前，全面禁用智能体人工智能浏览器。

该报告还警示了一种潜在风险场景：企业员工 “可能会倾向于使用人工智能浏览器，将那些必须完成但重复性高、趣味性低的工作任务自动化”。例如，有人可能会指使人工智能浏览器代其完成强制性网络安全培训，以此逃避学习。

这家咨询机构指出：“智能体浏览器（即人们常说的人工智能浏览器）有望改变用户与网站的交互方式，实现交易流程自动化，但同时也带来了重大网络安全风险。首席信息安全官（CISOs）必须在未来一段时间内全面禁用所有人工智能浏览器，以最大限度降低风险暴露面。”

无独有偶，美国国家网络安全中心（NCSC）也指出，大语言模型（LLMs）可能长期面临一类名为提示注入的持续性漏洞威胁，且这一问题无法被彻底根除。

美国国家网络安全中心平台研究技术总监戴维・C 表示：“当前的大语言模型，根本无法在提示词内的指令与数据之间建立有效的安全边界。因此，相关防护设计应更侧重于构建确定性的（非大语言模型的）防护机制，通过约束系统的操作权限来实现安全防护，而非单纯试图阻止恶意内容进入大语言模型。”

谷歌为 Chrome 浏览器新增分层防御机制，抵御间接提示注入（Indirect Prompt Injection）威胁

译文声明

发表评论

TA的文章

深度分析Sorry勒索软件的加密实现与行为特征

Ally WordPress插件高危SQL注入漏洞威胁40万个网站

OpenAI战略调整Sora视频AI将直接接入ChatGPT

HPE发布Aruba OS高危漏洞预警可未授权重置密码

能感知自身正在被测试的AI Anthropic关于Claude自我意识的惊人发现

相关文章

深度分析Sorry勒索软件的加密实现与行为特征

Ally WordPress插件高危SQL注入漏洞威胁40万个网站

OpenAI战略调整Sora视频AI将直接接入ChatGPT

HPE发布Aruba OS高危漏洞预警可未授权重置密码

能感知自身正在被测试的AI Anthropic关于Claude自我意识的惊人发现

GitLab发布紧急安全更新修复高危XSS与API拒绝服务漏洞

Telegram的黑色面网络罪犯利用机器人API隐秘窃取数据

热门推荐