OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4,这是其迄今为止能力最强、效率最高的前沿模型,将高级推理、代码生成与智能体工作流深度融合为统一系统。
该模型已陆续登陆 ChatGPT(以 GPT-5.4 Thinking 形态)、API 及 Codex 平台,并面向需要海量算力处理复杂任务的用户,推出更高性能的 GPT-5.4 Pro 版本。
GPT-5.4 整合了此前分散在多个专用模型中的能力,将 GPT-5.3-Codex 业界领先的编码优势与增强的通用推理能力、原生计算机操作能力融为一体。
这使得该模型可支撑端到端的专业工作流,从表格、演示文稿到复杂多步智能体任务,大幅减少用户的反复交互。
在 ChatGPT 中,GPT-5.4 Thinking 新增前置推理规划机制,允许用户在生成过程中直接打断、引导模型,无需重新开始,从而输出更精准、更贴合上下文的结果。这种实时可控性是与前代推理模型的显著区别 —— 以往中途修正往往需要完全重启。
GPT-5.4 核心性能
GPT-5..4 在多项关键行业基准测试中刷新最优成绩:
| 评测基准 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval(胜率或持平) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro(公开) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0% | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
在覆盖美国 GDP 前 9 大行业、共 44 种职业的 GDPval 测试中,GPT-5.4 在 83% 的对比中达到或超过行业专业人员水平,较 GPT-5.2 的 70.9% 大幅提升。
据法律 AI 公司 Harvey 应用研究主管 Niko Grupen 透露,在面向法律文档的 BigLaw Bench 评测中,该模型得分达到 91%。
GPT-5.4 是 OpenAI 首个具备原生计算机操作能力的通用大模型,支持智能体通过截图、鼠标指令、键盘输入直接与软件交互。
在 OSWorld-Verified 环境中,其成功率达 75.0%,超过人类基准 72.4%,更远超 GPT-5.2 的 47.3%。
在 WebArena-Verified 环境中,GPT-5.4 浏览器操作成功率为 67.3%;仅依靠截图观察的 Online-Mind2Web 任务中,得分高达 92.8%。
该模型 API 还支持 100 万 tokens 上下文窗口,可支撑大规模智能体长周期任务,与谷歌、Anthropic 等厂商的上下文能力持平。
OpenAI 强调,GPT-5.4 是事实准确性最高的一代模型:与 GPT-5.2 相比,单条陈述错误率下降 33%,完整回复错误率下降 18%。
该模型同时实现显著的 token 效率提升,解决相同推理问题消耗更少 token,直接降低企业开发者的 API 成本并加快响应速度。
在实际生产环境中,Mainstay 公司 CEO Dod Fraser 表示,GPT-5.4 在近 3 万个房产门户任务中首次尝试成功率达 95%,完成速度提升 3 倍,token 消耗较前代计算机操作模型减少 70%。
GPT-5.4 Thinking 现已向 ChatGPT Plus、Team、Pro 订阅用户开放,并将在未来三个月内逐步取代 GPT-5.2 Thinking。开发者可通过 OpenAI API 调用 GPT-5.4 与 GPT-5.4 Pro,生产环境支持优先处理,实现更快 token 生成速度。








发表评论
您还未登录,请先登录。
登录