ElevenLabs是一家以音频生成技术着称的AI巨头公司,近期完成1.8亿美元融资,估值达到33亿美元。该公司迈出新动作,推出独立语音转文本模型Scribe,正式进军语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper模型展开竞争。 ElevenLabs凭借庞大的语音库为多家企业提供语音转文本支持,目前则聚焦自主技术突破。Scribe超99种语言,超过25种单词错误率低于5%,英语(准确率97%)、法语、德语、印地语、日语和西班牙语等。其余语言按错误率分级,覆盖高(5%-10%)、好(10%-20%)支持和高达(25%-50%)类别。

Scribe在FLEURS和Common Voice基准测试中表现出色,超越Google Gemini 2.0 Flash和Whisper Large V3,确立了在英语、卡斯、大象等许多领域的领先地位。总裁马蒂·斯坦语言尼斯耶夫斯基表示,公司目标不仅仅是内容生成,而是提升语音理解与预测能力。他指出,尽管语音转文本技术已被认为成熟,但在语言中表现不佳。ElevenLabs依托内部数据标签团队的快速反馈,显着优化模型绩效。该技术最初支持AI对话代理平台开发,呈现其独立模型面世。
Scribe具备智能演讲者身份分类功能,可识别发言者,并提供级别时间和声音事件自动标签(如笑声),从而生成精准字幕。客户端可通过工作室直接预测视频内容。目前,Scribe仅支持预录音频,公司宣布即将推出低延迟实时版本,将可用于会议通话或语音笔记。近期重新调整为0.40美元,设备备份,但部分对手提供了先进的价格或不同的功能组合。ElevenLabs先进其技术版本图的扩展,前景值得关注。









