美国OpenAI推出GPT-Realtime系列三款音频模型，首次将GPT-5级推理融入语音交互

2026-05-13 11:56

关键词:

维度网讯，美国OpenAI正式推出GPT-Realtime系列三款实时音频模型，分别命名为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，均通过Realtime API向开发者开放。这三款模型将推理、翻译与转录能力集成进同一套API，语音交互从单轮问答直接扩展至带有工具调用和任务执行能力的生产级代理。

GPT-Realtime-2是该系列的核心型号，也是OpenAI第一个把GPT-5级推理能力带进语音交互的模型。它面向实时语音代理设计，对话中可同步进行复杂推理、调用外部工具、处理中途打断与更正，并在长时间会话中保持上下文连贯。上下文窗口从上一代的32K直接拉到128K，足够支撑超过半小时的多轮复杂任务对话。模型提供五档可调节推理强度——最低到最高——开发者可按任务复杂度在响应速度与推理深度之间做取舍。并行工具调用让它能同时访问日历、地图、CRM等多个后台系统，边向用户汇报进度边执行操作，并通过“Preambles”机制自然插入“让我核实一下”等过渡语，交互质感更接近真人对话。

GPT-Realtime-Translate是一台流式同声传译引擎。输入语言超过70种，输出语言限定在13种，翻译节奏与说话者同步，不用等完整句子结束就开始输出，延迟压到极低水平。GPT-Realtime-Whisper则提供低延迟流式转录，人一张口，文本同步生成，适用于实时字幕、会议记录和工作流更新，把传统语音转文字服务中的等待时间差直接消掉。

三款模型的计费方式做了明确切割。GPT-Realtime-2按token计量，音频输入每百万token 32美元，输出64美元，缓存输入仅0.4美元。GPT-Realtime-Translate每分钟0.034美元，GPT-Realtime-Whisper每分钟0.017美元，均按使用时长收费。这种结构把同声传译的每分钟成本压到极低，大规模企业部署的经济账已经算得过来。

美国房地产信息平台Zillow、在线旅游服务商Priceline和德国电信已启动集成测试。Zillow用GPT-Realtime-2搭建了理解住房条件并安排看房的语音助手，内部对抗性测试中电话任务成功率从69%飙到95%，反歧视合规表现也更稳定。Priceline把语音代理接入了机票查询、酒店预订、行程变更等长链条服务，目标是把语音交互从“问答”提速到“办理”。德国电信在复杂套餐咨询、故障处理和账单解释等场景完成验证，电信坐席环境的可用性已经跑通。

基准测试的分数也在往上走。GPT-Realtime-2在Big Bench Audio音频智能测试中比上一代高出15.2个百分点，在Audio MultiChallenge多轮对话指令跟随测试中高出13.8个百分点。

从迭代节奏看，OpenAI在语音领域的推进线很清晰。2024年先把ChatGPT高级语音模式的低延迟能力开放给开发者，2025年8月发布首个生产级Gpt-Realtime模型，2026年2月上线Gpt-Realtime-1.5，现在GPT-Realtime-2把这套产品线从体验型功能正式拉进企业级API的基础版本序列。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告之，本站将予以修改或删除。邮箱：news@wedoany.com

美国