Hume推出文本转语音模型Octave，生成可调整情绪的AI语音

2025-03-02 16:10

关键词:

纽约初创公司Hume AI近日推出了名为Octave的新型大型语言和语音模型，旨在生成逼真且情感细腻的语音，适用于有声读物、视频游戏角色对话、电影/电视/视频等多种内容形式。Hume声称，Octave是首个由大型语言模型(LLM)驱动的文本转语音系统，该模型不仅在文本上进行训练，还在语音和情感标记上进行训练，使其能够在上下文中理解单词并相应地调整语气、节奏和节奏。

Hume AI的联合创始人兼首席执行官Alan Cowen表示：“我们正在推出首个用于文本转语音的LLM——一种在上下文中理解单词的模型，预测正确的情绪、节奏、节奏和重点，使语音听起来比以往任何时候都更人性化。”

Octave的核心功能

Octave不仅限于基本的语音生成，它还可以从剧本中解读角色特征和风格，调整声音变化以匹配隐含的情感。例如，讽刺的评论会发出讽刺的语气，惊慌的句子听起来紧急，低声说出的秘密会被掩盖——所有这些都不需要明确的指示。用户还可以通过自然语言指令精细调整生成的声音，例如“更快乐、更悲伤、更沮丧、更愤怒、更讽刺、更真诚”等。

Cowen补充道：“你可以描述一个角色——比如一个讽刺的中世纪农民——模型会立即创造出那个声音，并根据你的指示调整情绪，如愤怒、悲伤或快乐。语音调制在句子级别起作用，但你也可以调整句子的各个部分，指示模型传达细微的情绪，比如轻微的挫败感与幽默或愤怒的混合。”

为内容创作量身定制

Octave专为内容创作者和媒体制作量身定制，适用于有声读物、播客、视频画外音和视频游戏角色等场景。用户可以通过Hume网站的项目页面或API访问该模型。Octave的“离线”组件意味着它旨在生成可添加到视频或有声读物等项目中的离散音频文件，而不是进行实时对话。

Hume的API允许开发人员每分钟最多发出50个请求，最大文本长度为5000个字符，描述上限为1000个字符。每个请求最多可以生成5个输出，支持的音频格式包括MP3、WAV和PCM。

定价与竞争

Hume AI提供基于订阅的定价模型，包括免费选项、Creator、Creator Pro和Enterprise计划。Hume强调，其Octave TTS的定价约为竞争对手ElevenLabs服务成本的一半，显示出文本转语音领域的激烈竞争。

Hume AI还进行了一项盲法比较研究，将Octave与ElevenLabs进行基准测试。结果显示，Octave在音频质量、自然度以及语音与描述匹配度方面均优于ElevenLabs。

训练与数据

Octave TTS建立在经过数十万亿个语言令牌训练的LLM之上，使用数百万小时的公开长篇语音数据和Hume AI专有的新语音数据集进行训练。Cowen表示：“我们收集了通过网络摄像头记录自己、对视频的自然反应、讲述故事以及与他人交谈的人的数据，以捕捉各种情绪表达。”

角色一致性与限制

Octave TTS在长篇内容中保持一致的角色语音。Hume AI的“项目”页面支持此功能，通过自动分块文本来处理有声读物等长篇内容，同时保持章节之间的字符一致性和上下文。

Hume在其网站和API中内置了技术护栏，禁止某些用途，例如生成逼真的儿童声音或模仿特定个人。然而，该公司可以根据客户需求调整这些限制，例如为儿童读物出版商提供定制服务。