维度网讯,OpenAI于当地时间4月23日正式发布全新旗舰大语言模型GPT-5.5,内部代号“Spud”,同步推出更高规格的GPT-5.5 Pro版本。这是自GPT-4.5以来OpenAI首个完全重新训练的基础模型,现已向ChatGPT和Codex的Plus、Pro、Business、Enterprise用户推送,API部署将在完成额外安全评估后上线。OpenAI联合创始人兼总裁格雷格·布罗克曼在发布会上称,该模型是“迄今为止最聪明、最直观的模型”,核心突破在于从“回答问题”向“自主完成工作”的根本性范式迁移。
GPT-5.5定位为人工智能进入“智能体时代”的标志性产品。布罗克曼表示,该模型的真正特别之处在于“更少的指令就能完成更多的工作,它可以分析一个不明确的问题并准确找出下一步该怎么做,真正为未来如何进行计算机工作奠定了基础”。OpenAI明确将GPT-5.5定位为“为真实工作和智能体驱动的新型智能”,能力增益集中在智能体编码、计算机使用、知识工作和早期科学研究四个领域。
GPT-5.5的编码能力提升最为显著。在衡量复杂命令行工作流的Terminal-Bench 2.0基准测试中,GPT-5.5达到82.7%,GPT-5.4为75.1%,Anthropic的Claude Opus 4.7为69.4%,谷歌的Gemini 3.1 Pro为68.5%,GPT-5.5较竞品领先超过13个百分点。OpenAI内部Expert-SWE评测中,面向人类预估中位完成时间20小时的长周期编程任务,GPT-5.5达到73.1%,较GPT-5.4的68.5%提升4.6个百分点。在OSWorld-Verified基准上,GPT-5.5达到78.7%,超越Claude Opus 4.7的78.0%。在评估44个职业知识工作能力的GDPval基准上,GPT-5.5取得84.9%,领先Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。在衡量客服工作流的Tau2-bench Telecom基准上,GPT-5.5达到98.0%。值得注意的是,GPT-5.5在所有评测中均以更少的输出token完成,实现了“更强且更省”的突破。
效率方面,GPT-5.5在真实生产环境中维持与GPT-5.4相同的逐token延迟,同时完成相同Codex任务所需token显著减少。这一效率跃升得益于OpenAI与英伟达的深度合作——GPT-5.5与英伟达GB200、GB300 NVL72系统从设计之初即进行联合协同优化,部分启发式算法由人工智能自行编写,使token生成速度提升超过20%。在Artificial Analysis的Coding Agent Index上,GPT-5.5以60分拔得头筹,领先Claude Opus 4.7和Gemini 3.1 Pro Preview各3分,达到最高智能水平的同时成本仅为同级竞品的一半。
GPT-5.5 API定价为输入每百万token 5美元、输出每百万token 30美元,约为GPT-5.4价格的两倍;GPT-5.5 Pro则为每百万输入token 30美元、输出180美元。OpenAI声称输出token使用量下降了约40%,因此实际任务净成本较GPT-5.4仅上涨约20%。按同等智能水平换算,GPT-5.5可取得与Claude Opus 4.7相同的综合评分,而运行成本仅为其四分之一。在ChatGPT和Codex中,上下文窗口支持400K至1M token,Codex新增快速模式以2.5倍价格换取1.5倍生成速度。目前Codex周活跃用户已达400万人,较两周前的300万人增长约33%,OpenAI内部85%的员工每周使用Codex。
网络安全能力是GPT-5.5引发行业关注的另一焦点。GPT-5.5在安全公司XBOW的实战渗透测试基准中表现突出,GPT-5曾漏报40%的已知漏洞,Claude Opus 4.6降至18%,GPT-5.5进一步压缩至10%。在纯黑盒测试条件下,GPT-5.5的表现已超越GPT-5在提供源代码的白盒测试条件下的成绩。OpenAI将其在Preparedness Framework下评估为“High”安全风险等级,部署了迄今为止最严格的网络风险分类器和多重安全防护,对潜在恶意用途实施主动拦截,API较ChatGPT延迟上线亦因此考量。
GPT-5.5的发布正值前沿AI实验室竞争白热化之际。该模型距离GPT-5.4推出仅六周。Anthropic的Claude Mythos Preview虽在多数绝对基准上领先GPT-5.5,但Mythos采取严格受限发布策略,仅向约40家机构开放,API定价高达输入25美元/输出125美元,约是GPT-5.5的5倍。GPT-5.5选择向全量付费用户开放,以“前沿能力普惠化”策略形成与Anthropic差异化竞争。
在科学研究领域,GPT-5.5展现出显著增益。OpenAI首席研究官马克·陈表示,该模型在科学和技术研究工作流中取得了“有意义的突破”。在衡量多阶段遗传学数据分析的GeneBench基准上,GPT-5.5达到25.0%,GPT-5.5 Pro达到33.2%,较GPT-5.4的19.0%大幅提升。在FrontierMath Tier 4这一当前最难的数学基准测试上,GPT-5.5达到35.4%,GPT-5.5 Pro达到39.6%,超过Claude Opus 4.7的22.9%。
企业级市场正成为GPT-5.5的主战场。OpenAI披露,ChatGPT付费商业用户已达900万,每周活跃用户超9亿,付费订阅用户超5000万。纽约梅隆银行首席信息官Leigh-Ann Russell表示,GPT-5.5在响应质量和抗幻觉方面实现了阶跃式提升,该行正在超过220个人工智能应用场景中测试GPT-5.5。OpenAI内部财务团队已使用GPT-5.5审查了24771份K-1税表、总计71637页,较去年提前两周完成任务。布罗克曼确认,GPT-5.5将成为OpenAI正在构建的“超级应用”的核心引擎。从“对话工具”到“智能体引擎”的跃迁,正在重新定义人机协作的边界。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com










