Podcastle 推出 Asyncflow v1.0 文本转语音模型，提供 450 多种 AI 语音

2025-03-04 10:29

关键词:

播客录制和编辑平台 Podcastle 近日推出了其自主研发的 AI 文本转语音模型 Asyncflow v1.0，正式加入 AI 驱动的文本转语音技术竞赛。该模型提供超过 450 种 AI 语音选项，并计划向开发者开放 API，以便将文本转语音功能直接集成到其他应用程序中。

Podcastle 表示，其技术开发和模型训练方式使其在成本和效率上具有竞争优势。通过这一举措，Podcastle 加入了 ElevenLabs、Speechify 和 WellSaid 等公司的行列，这些公司均已开发出将文本转换为 AI 语音的技术，广泛应用于营销、广告、内容创作、教育和企业培训等领域。

Podcastle 创始人 Arto Yeritsyan 透露，公司一直希望构建一个强大的文本转语音模型，但高昂的训练成本和数据需求曾是一大障碍。得益于近年来大型语言模型的发展，Podcastle 在去年取得了技术突破，能够在无需大量数据的情况下构建高质量的语音模型。此外，公司去年获得的 1350 万美元 A 轮融资也为这一项目提供了支持。

Yeritsyan 指出，Podcastle 的文本转语音服务每 40 分钟收费约为 500 美元，而竞争对手 ElevenLabs 的同类服务收费为 99 美元。尽管价格较高，但 Podcastle 强调其技术的独特优势，包括更低的训练和推理成本。

Podcastle 还升级了其语音克隆功能，简化了训练流程。此前，用户需要阅读约 70 个句子来训练语音克隆，而现在只需录制几秒钟的音频即可完成。新流程结合了 Podcastle 去年发布的 Magic Dust AI 技术，进一步提升了录音质量。尽管测试中生成的语音仍略显机械化，但已能较好地模仿用户的语气。公司表示，未来将继续优化这一功能，并允许用户通过训练不同语音样本来获得更自然的效果。

除了文本转语音功能，Podcastle 还重新设计了其网站，整合了音频、视频、播客和 AI 旁白工具。Yeritsyan 表示，虽然大多数用户主要使用 Podcastle 处理音频内容，但视频内容的处理需求也在快速增长。这一整合将使 Podcastle 在竞争中占据更大优势。

美国

语言处理

上一篇：哥伦比亚69个海上风电区块招标开启，两家中企入围

下一篇：俄罗斯中央设计技术学院为切佩茨克机械厂开发数字化退役方案