xAI正式推出Grok语音转文本与文本转语音API，STT批量处理每小时0.10美元

2026-04-18 09:48

维度网讯，xAI于当地时间4月17日宣布正式推出Grok平台的语音转文本(STT)和文本转语音(TTS)API。据xAI官方公告，此次更新旨在通过AI模型提供高保真、低延迟的语音交互能力，支持开发者在应用中集成自然流畅的语音对话体验。新API支持开发者将基于语音的交互功能集成至各类应用，用户可通过语音输入与Grok对话，并获得合成音频响应。xAI将Grok音频API作为独立服务开放，标志着其语音技术商业化路径从垂直整合向横向输出转变。

Grok STT API提供高准确率、低延迟的转录服务，支持REST API批量处理和WebSocket API实时流式转录两种接入方式，并具备词级时间戳、说话人分离、多声道支持及智能逆文本规范化功能。据官方公布的基准测试数据，在电话通话、会议、视频及播客等多个领域的测试中，该API的词错误率表现优于ElevenLabs、Deepgram和AssemblyAI等主流商业语音模型。服务支持超过25种语言，定价为批量处理每小时0.10美元，流式处理每小时0.20美元。

Grok TTS API可生成快速、自然且富有表现力的语音输出，支持通过简单语音标签进行细粒度控制，定价为每100万个字符4.20美元。TTS API提供多种自然表达语音选项，开发者可通过语音标签对合成效果进行灵活调控。两款音频API均基于为Grok Voice、特斯拉车辆和Starlink客户支持提供动力的同一技术栈，该技术栈已在移动应用、车载系统和卫星通信等多元场景中经过大规模验证。

xAI的语音技术布局始于2025年12月推出的Grok Voice Agent API，该API面向开发者开放其在特斯拉车辆及移动应用中已验证的语音代理技术，支持数十种语言，具备实时工具调用与网络搜索能力，平均首音频响应时间低于1秒，在Big Bench Audio评测中排名第一。Grok Voice Agent采用自研全栈语音技术，包括语音活动检测、分词器与音频模型，定价为每分钟连接时间0.05美元，兼容OpenAI Realtime规范，并提供Ara、Eve、Leo等多款自然表达语音选项。

此次独立STT与TTS API的推出，将音频处理能力从实时对话场景扩展至批量处理和流式转录等更广泛的开发场景。开发者可根据具体应用需求，在实时语音代理、批量音频转录、流式语音识别和定制化语音合成等不同接入方案中进行选择。这一产品矩阵的丰富，使xAI能够覆盖从低延迟实时对话到高精度批量处理的全场景语音交互需求。

xAI正加速构建以Grok为核心的开发者生态。2025年11月，xAI推出Grok 4.1 Fast API，信息错误率降低约65%，幻觉发生率下降约三分之二，其输入价格仅为Grok 4的十五分之一，输出价格仅为三十分之一，配合200万Token的超长上下文窗口，成为xAI产品线中性价比最高的模型。Grok 4.1 Fast同步支持工具调用、联网搜索等多模态能力。从基础大模型API到语音处理API，再到工具调用与实时搜索，xAI的API产品矩阵正在形成覆盖文本推理、语音交互和智能代理三大维度的完整开发者工具链。

在应用层面，Grok语音API已在多个场景实现落地。云通信平台Voximplant于2026年1月将Grok Voice Agent API集成至其通话系统，允许Grok通过电话号码、SIP中继、WebRTC及WhatsApp Business等渠道运行实时语音对话。有开发者基于Grok Voice API搭建了公路旅行规划助手，几秒内完成搜索推荐、路线优化和行程生成。Grok语音API还被集成至机器人平台，实现带有情感表达的低声对话交互。特斯拉作为Grok Voice Agent API的设计合作伙伴，其语音功能已在数百万辆特斯拉车辆中运行。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国