OpenAI 严阵以待：下一代 AI 模型或具备突破防御体系的能力-安全KER

这家ChatGPT 的研发公司表示，其规划与评估工作均基于这样的前提展开：每一款新模型都有可能具备足够强大的能力，既可以开发出能够攻破高防护级别系统的可用零日远程漏洞利用工具，也能为那些旨在产生现实影响的复杂隐蔽型企业或工业入侵行动，提供实质性技术支持。该预警发布之际，恰逢该公司的网络安全相关能力在近几个月内实现大幅跃升 —— 模型在夺旗赛（CTF）挑战中的表现，已从 8 月 GPT-5 版本的27% 成功率，提升至 11 月GPT-5.1-Codex-Max 版本的 76%。

OpenAI 预计，后续推出的模型将延续这一发展势头，但该公司并未明确说明，首批被评定为网络安全高风险等级的模型何时会发布，也未指出未来哪类模型可能构成此类风险。在 OpenAI 的《安全准备框架》中，“高风险” 属于第二高风险等级，仅次于 “临界风险”—— 达到临界风险等级的模型会被判定为不适合公开发布。

据报道，OpenAI 研究员福阿德・马廷（Fouad Matin） 指出，正是某一项特定能力引发了上述担忧。“我认为，推动我们采取这些应对措施的核心因素，是模型具备长时间持续工作的能力。” 马廷在接受 Axios 采访时如此表示，他所指的是模型凭借自主持续运行能力发起暴力破解攻击的潜在可能性。

今年 6 月，该公司曾就生物武器相关风险发布过类似预警，随后在 7 月推出了ChatGPT Agent，而该产品的风险等级确实被评定为 “高风险”。与其他军民两用领域类似，网络安全的防御与攻击流程，往往依赖于相同的底层知识与技术手段。

Recorded Future的威胁情报分析师艾伦・里斯卡（Allan Liska） 则提出了更为审慎的观点。他在一封电子邮件中表示：“尽管 AI 模型带来的安全风险确实在持续上升 —— 这既源于模型自身能力的增强，也源于针对模型防护机制的攻击手段不断升级，但我们同样不应夸大这些威胁的实际影响。”

“今年我们已经看到好几份报告夸大了当前 AI 模型所构成的威胁。虽然我们确实监测到，无论是国家级威胁行为者还是网络犯罪团伙，他们在 AI 技术的应用意愿与能力上都有明显提升，但对于那些遵循最佳安全实践的机构而言，这些威胁仍处于其可控范围之内。” 他补充道。

OpenAI 表示，目前正着力投入资源，一方面强化其模型在网络安全防御任务中的性能，另一方面开发相关工具，帮助防御人员更便捷地开展代码审计、漏洞修补等工作。该公司将自身目标设定为：为常常处于 “人员不足、资源匮乏” 困境的防御方创造显著优势，同时限制该技术在恶意用途上的能力提升空间。

OpenAI 正在对其前沿模型开展针对性训练，使其能够拒绝或安全响应那些可能导致明显网络滥用行为的请求，同时确保模型能够为合法的防御与教学场景提供有效支持。该公司表示，正通过访问控制、基础设施加固、数据流出管控与实时监控等多重措施的组合实施，辅以检测响应系统，以及专门的威胁情报与内部风险管控方案，构建全方位安全防护体系。

OpenAI 宣布，将推出一项可信访问计划，为那些从事网络安全防御工作的合格用户与客户，探索分级访问其最新模型增强功能的机制。该公司表示，目前仍在确定哪些功能可面向公众开放，哪些功能需要实施分级权限限制，这些考量因素或将影响该计划未来的设计方案。

此外，OpenAI 还在筹备成立前沿风险顾问委员会（Frontier Risk Council），这一顾问团队将吸纳经验丰富的网络安全防御人员与安全从业者，与 OpenAI 内部团队展开深度协作。该委员会初期将聚焦网络安全领域，未来将逐步拓展至其他前沿技术能力相关领域。委员会成员将针对 “有益且负责任的技术能力” 与 “潜在滥用风险” 的边界划分提供专业建议，其研究结论将直接为模型的安全评估与防护措施制定提供依据。

OpenAI 旗下一款名为Aardvark的智能体安全研究工具目前已进入私有测试阶段。该工具能够对代码库进行全面扫描以发现漏洞，并自动生成修补方案供维护人员快速采用。通过对完整代码库进行逻辑推理分析，该工具已经在开源软件中发现了多个此前未被记录的新型 CVE 漏洞。OpenAI 计划向部分非商业开源代码仓库提供免费使用权限，以此助力开源软件生态系统与供应链的安全建设。