OpenAI发布GPT-5.4大模型,具备更强推理、编码与计算机操作能力

阅读量9603

发布时间 : 2026-03-10 13:59:55

x
译文声明

本文是翻译文章,文章原作者 Guru Baran,文章来源:cybersecuritynews

原文地址:https://cybersecuritynews.com/gpt-5-4-launched/

译文仅供参考,具体内容表达以及含义原文为准。

OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4,这是其迄今为止能力最强、效率最高的前沿模型,将高级推理、代码生成与智能体工作流深度融合为统一系统。
该模型已陆续登陆 ChatGPT(以 GPT-5.4 Thinking 形态)、API 及 Codex 平台,并面向需要海量算力处理复杂任务的用户,推出更高性能的 GPT-5.4 Pro 版本。
GPT-5.4 整合了此前分散在多个专用模型中的能力,将 GPT-5.3-Codex 业界领先的编码优势与增强的通用推理能力原生计算机操作能力融为一体。
这使得该模型可支撑端到端的专业工作流,从表格、演示文稿到复杂多步智能体任务,大幅减少用户的反复交互。
在 ChatGPT 中,GPT-5.4 Thinking 新增前置推理规划机制,允许用户在生成过程中直接打断、引导模型,无需重新开始,从而输出更精准、更贴合上下文的结果。这种实时可控性是与前代推理模型的显著区别 —— 以往中途修正往往需要完全重启。

GPT-5.4 核心性能

GPT-5..4 在多项关键行业基准测试中刷新最优成绩:
评测基准 GPT-5.4 GPT-5.3-Codex GPT-5.2
GDPval(胜率或持平) 83.0% 70.9% 70.9%
SWE-Bench Pro(公开) 57.7% 56.8% 55.6%
OSWorld-Verified 75.0% 74.0% 47.3%
Toolathlon 54.6% 51.9% 46.3%
BrowseComp 82.7% 77.3% 65.8%
在覆盖美国 GDP 前 9 大行业、共 44 种职业的 GDPval 测试中,GPT-5.4 在 83% 的对比中达到或超过行业专业人员水平,较 GPT-5.2 的 70.9% 大幅提升。
据法律 AI 公司 Harvey 应用研究主管 Niko Grupen 透露,在面向法律文档的 BigLaw Bench 评测中,该模型得分达到 91%
GPT-5.4 是 OpenAI 首个具备原生计算机操作能力的通用大模型,支持智能体通过截图、鼠标指令、键盘输入直接与软件交互。
OSWorld-Verified 环境中,其成功率达 75.0%,超过人类基准 72.4%,更远超 GPT-5.2 的 47.3%。
WebArena-Verified 环境中,GPT-5.4 浏览器操作成功率为 67.3%;仅依靠截图观察的 Online-Mind2Web 任务中,得分高达 92.8%
该模型 API 还支持 100 万 tokens 上下文窗口,可支撑大规模智能体长周期任务,与谷歌、Anthropic 等厂商的上下文能力持平。
OpenAI 强调,GPT-5.4 是事实准确性最高的一代模型:与 GPT-5.2 相比,单条陈述错误率下降 33%完整回复错误率下降 18%
该模型同时实现显著的 token 效率提升,解决相同推理问题消耗更少 token,直接降低企业开发者的 API 成本并加快响应速度。
在实际生产环境中,Mainstay 公司 CEO Dod Fraser 表示,GPT-5.4 在近 3 万个房产门户任务中首次尝试成功率达 95%,完成速度提升 3 倍,token 消耗较前代计算机操作模型减少 70%
GPT-5.4 Thinking 现已向 ChatGPT Plus、Team、Pro 订阅用户开放,并将在未来三个月内逐步取代 GPT-5.2 Thinking。开发者可通过 OpenAI API 调用 GPT-5.4 与 GPT-5.4 Pro,生产环境支持优先处理,实现更快 token 生成速度。
本文翻译自cybersecuritynews 原文链接。如若转载请注明出处。
分享到:微信
+10赞
收藏
安全客
分享到:微信

发表评论

Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66