OpenAI发布GPT-5.5，智能体编码超越Claude Opus 4.7

2026-04-24 08:48

关键词:

维度网讯，OpenAI于当地时间4月23日正式发布全新旗舰大语言模型GPT-5.5，内部代号“Spud”，同步推出更高规格的GPT-5.5 Pro版本。这是自GPT-4.5以来OpenAI首个完全重新训练的基础模型，现已向ChatGPT和Codex的Plus、Pro、Business、Enterprise用户推送，API部署将在完成额外安全评估后上线。OpenAI联合创始人兼总裁格雷格·布罗克曼在发布会上称，该模型是“迄今为止最聪明、最直观的模型”，核心突破在于从“回答问题”向“自主完成工作”的根本性范式迁移。

GPT-5.5定位为人工智能进入“智能体时代”的标志性产品。布罗克曼表示，该模型的真正特别之处在于“更少的指令就能完成更多的工作，它可以分析一个不明确的问题并准确找出下一步该怎么做，真正为未来如何进行计算机工作奠定了基础”。OpenAI明确将GPT-5.5定位为“为真实工作和智能体驱动的新型智能”，能力增益集中在智能体编码、计算机使用、知识工作和早期科学研究四个领域。

GPT-5.5的编码能力提升最为显著。在衡量复杂命令行工作流的Terminal-Bench 2.0基准测试中，GPT-5.5达到82.7%，GPT-5.4为75.1%，Anthropic的Claude Opus 4.7为69.4%，谷歌的Gemini 3.1 Pro为68.5%，GPT-5.5较竞品领先超过13个百分点。OpenAI内部Expert-SWE评测中，面向人类预估中位完成时间20小时的长周期编程任务，GPT-5.5达到73.1%，较GPT-5.4的68.5%提升4.6个百分点。在OSWorld-Verified基准上，GPT-5.5达到78.7%，超越Claude Opus 4.7的78.0%。在评估44个职业知识工作能力的GDPval基准上，GPT-5.5取得84.9%，领先Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。在衡量客服工作流的Tau2-bench Telecom基准上，GPT-5.5达到98.0%。值得注意的是，GPT-5.5在所有评测中均以更少的输出token完成，实现了“更强且更省”的突破。

效率方面，GPT-5.5在真实生产环境中维持与GPT-5.4相同的逐token延迟，同时完成相同Codex任务所需token显著减少。这一效率跃升得益于OpenAI与英伟达的深度合作——GPT-5.5与英伟达GB200、GB300 NVL72系统从设计之初即进行联合协同优化，部分启发式算法由人工智能自行编写，使token生成速度提升超过20%。在Artificial Analysis的Coding Agent Index上，GPT-5.5以60分拔得头筹，领先Claude Opus 4.7和Gemini 3.1 Pro Preview各3分，达到最高智能水平的同时成本仅为同级竞品的一半。

GPT-5.5 API定价为输入每百万token 5美元、输出每百万token 30美元，约为GPT-5.4价格的两倍;GPT-5.5 Pro则为每百万输入token 30美元、输出180美元。OpenAI声称输出token使用量下降了约40%，因此实际任务净成本较GPT-5.4仅上涨约20%。按同等智能水平换算，GPT-5.5可取得与Claude Opus 4.7相同的综合评分，而运行成本仅为其四分之一。在ChatGPT和Codex中，上下文窗口支持400K至1M token，Codex新增快速模式以2.5倍价格换取1.5倍生成速度。目前Codex周活跃用户已达400万人，较两周前的300万人增长约33%，OpenAI内部85%的员工每周使用Codex。

网络安全能力是GPT-5.5引发行业关注的另一焦点。GPT-5.5在安全公司XBOW的实战渗透测试基准中表现突出，GPT-5曾漏报40%的已知漏洞，Claude Opus 4.6降至18%，GPT-5.5进一步压缩至10%。在纯黑盒测试条件下，GPT-5.5的表现已超越GPT-5在提供源代码的白盒测试条件下的成绩。OpenAI将其在Preparedness Framework下评估为“High”安全风险等级，部署了迄今为止最严格的网络风险分类器和多重安全防护，对潜在恶意用途实施主动拦截，API较ChatGPT延迟上线亦因此考量。

GPT-5.5的发布正值前沿AI实验室竞争白热化之际。该模型距离GPT-5.4推出仅六周。Anthropic的Claude Mythos Preview虽在多数绝对基准上领先GPT-5.5，但Mythos采取严格受限发布策略，仅向约40家机构开放，API定价高达输入25美元/输出125美元，约是GPT-5.5的5倍。GPT-5.5选择向全量付费用户开放，以“前沿能力普惠化”策略形成与Anthropic差异化竞争。

在科学研究领域，GPT-5.5展现出显著增益。OpenAI首席研究官马克·陈表示，该模型在科学和技术研究工作流中取得了“有意义的突破”。在衡量多阶段遗传学数据分析的GeneBench基准上，GPT-5.5达到25.0%，GPT-5.5 Pro达到33.2%，较GPT-5.4的19.0%大幅提升。在FrontierMath Tier 4这一当前最难的数学基准测试上，GPT-5.5达到35.4%，GPT-5.5 Pro达到39.6%，超过Claude Opus 4.7的22.9%。

企业级市场正成为GPT-5.5的主战场。OpenAI披露，ChatGPT付费商业用户已达900万，每周活跃用户超9亿，付费订阅用户超5000万。纽约梅隆银行首席信息官Leigh-Ann Russell表示，GPT-5.5在响应质量和抗幻觉方面实现了阶跃式提升，该行正在超过220个人工智能应用场景中测试GPT-5.5。OpenAI内部财务团队已使用GPT-5.5审查了24771份K-1税表、总计71637页，较去年提前两周完成任务。布罗克曼确认，GPT-5.5将成为OpenAI正在构建的“超级应用”的核心引擎。从“对话工具”到“智能体引擎”的跃迁，正在重新定义人机协作的边界。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国