OpenAI发布GPT-5.4大模型，具备更强推理、编码与计算机操作能力-安全KER

OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4，这是其迄今为止能力最强、效率最高的前沿模型，将高级推理、代码生成与智能体工作流深度融合为统一系统。

该模型已陆续登陆 ChatGPT（以 GPT-5.4 Thinking 形态）、API 及 Codex 平台，并面向需要海量算力处理复杂任务的用户，推出更高性能的 GPT-5.4 Pro 版本。

GPT-5.4 整合了此前分散在多个专用模型中的能力，将 GPT-5.3-Codex 业界领先的编码优势与增强的通用推理能力、原生计算机操作能力融为一体。

这使得该模型可支撑端到端的专业工作流，从表格、演示文稿到复杂多步智能体任务，大幅减少用户的反复交互。

在 ChatGPT 中，GPT-5.4 Thinking 新增前置推理规划机制，允许用户在生成过程中直接打断、引导模型，无需重新开始，从而输出更精准、更贴合上下文的结果。这种实时可控性是与前代推理模型的显著区别 —— 以往中途修正往往需要完全重启。

GPT-5.4 核心性能

GPT-5..4 在多项关键行业基准测试中刷新最优成绩：

评测基准	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval（胜率或持平）	83.0%	70.9%	70.9%
SWE-Bench Pro（公开）	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

在覆盖美国 GDP 前 9 大行业、共 44 种职业的 GDPval 测试中，GPT-5.4 在 83% 的对比中达到或超过行业专业人员水平，较 GPT-5.2 的 70.9% 大幅提升。

据法律 AI 公司 Harvey 应用研究主管 Niko Grupen 透露，在面向法律文档的 BigLaw Bench 评测中，该模型得分达到 91%。

GPT-5.4 是 OpenAI 首个具备原生计算机操作能力的通用大模型，支持智能体通过截图、鼠标指令、键盘输入直接与软件交互。

在 OSWorld-Verified 环境中，其成功率达 75.0%，超过人类基准 72.4%，更远超 GPT-5.2 的 47.3%。

在 WebArena-Verified 环境中，GPT-5.4 浏览器操作成功率为 67.3%；仅依靠截图观察的 Online-Mind2Web 任务中，得分高达 92.8%。

该模型 API 还支持 100 万 tokens 上下文窗口，可支撑大规模智能体长周期任务，与谷歌、Anthropic 等厂商的上下文能力持平。

OpenAI 强调，GPT-5.4 是事实准确性最高的一代模型：与 GPT-5.2 相比，单条陈述错误率下降 33%，完整回复错误率下降 18%。

该模型同时实现显著的 token 效率提升，解决相同推理问题消耗更少 token，直接降低企业开发者的 API 成本并加快响应速度。

在实际生产环境中，Mainstay 公司 CEO Dod Fraser 表示，GPT-5.4 在近 3 万个房产门户任务中首次尝试成功率达 95%，完成速度提升 3 倍，token 消耗较前代计算机操作模型减少 70%。

GPT-5.4 Thinking 现已向 ChatGPT Plus、Team、Pro 订阅用户开放，并将在未来三个月内逐步取代 GPT-5.2 Thinking。开发者可通过 OpenAI API 调用 GPT-5.4 与 GPT-5.4 Pro，生产环境支持优先处理，实现更快 token 生成速度。