ElevenLabs 推出 Scribe：全球领先的语音转文本模型

2025-02-27 10:14

关键词:

ElevenLabs是一家以音频生成技术着称的AI巨头公司，近期完成1.8亿美元融资，估值达到33亿美元。该公司迈出新动作，推出独立语音转文本模型Scribe，正式进军语音检测领域，与Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper模型展开竞争。 ElevenLabs凭借庞大的语音库为多家企业提供语音转文本支持，目前则聚焦自主技术突破。Scribe超99种语言，超过25种单词错误率低于5%，英语(准确率97%)、法语、德语、印地语、日语和西班牙语等。其余语言按错误率分级，覆盖高(5%-10%)、好(10%-20%)支持和高达(25%-50%)类别。

Scribe在FLEURS和Common Voice基准测试中表现出色，超越Google Gemini 2.0 Flash和Whisper Large V3，确立了在英语、卡斯、大象等许多领域的领先地位。总裁马蒂·斯坦语言尼斯耶夫斯基表示，公司目标不仅仅是内容生成，而是提升语音理解与预测能力。他指出，尽管语音转文本技术已被认为成熟，但在语言中表现不佳。ElevenLabs依托内部数据标签团队的快速反馈，显着优化模型绩效。该技术最初支持AI对话代理平台开发，呈现其独立模型面世。

Scribe具备智能演讲者身份分类功能，可识别发言者，并提供级别时间和声音事件自动标签(如笑声)，从而生成精准字幕。客户端可通过工作室直接预测视频内容。目前，Scribe仅支持预录音频，公司宣布即将推出低延迟实时版本，将可用于会议通话或语音笔记。近期重新调整为0.40美元，设备备份，但部分对手提供了先进的价格或不同的功能组合。ElevenLabs先进其技术版本图的扩展，前景值得关注。

美国