Podcastle 推出 Asyncflow v1.0 文本转语音模型,提供 450 多种 AI 语音
2025-03-04 10:29
收藏

播客录制和编辑平台 Podcastle 近日推出了其自主研发的 AI 文本转语音模型 Asyncflow v1.0,正式加入 AI 驱动的文本转语音技术竞赛。该模型提供超过 450 种 AI 语音选项,并计划向开发者开放 API,以便将文本转语音功能直接集成到其他应用程序中。

Podcastle 表示,其技术开发和模型训练方式使其在成本和效率上具有竞争优势。通过这一举措,Podcastle 加入了 ElevenLabs、Speechify 和 WellSaid 等公司的行列,这些公司均已开发出将文本转换为 AI 语音的技术,广泛应用于营销、广告、内容创作、教育和企业培训等领域。

Podcastle 创始人 Arto Yeritsyan 透露,公司一直希望构建一个强大的文本转语音模型,但高昂的训练成本和数据需求曾是一大障碍。得益于近年来大型语言模型的发展,Podcastle 在去年取得了技术突破,能够在无需大量数据的情况下构建高质量的语音模型。此外,公司去年获得的 1350 万美元 A 轮融资也为这一项目提供了支持。

Yeritsyan 指出,Podcastle 的文本转语音服务每 40 分钟收费约为 500 美元,而竞争对手 ElevenLabs 的同类服务收费为 99 美元。尽管价格较高,但 Podcastle 强调其技术的独特优势,包括更低的训练和推理成本。

Podcastle 还升级了其语音克隆功能,简化了训练流程。此前,用户需要阅读约 70 个句子来训练语音克隆,而现在只需录制几秒钟的音频即可完成。新流程结合了 Podcastle 去年发布的 Magic Dust AI 技术,进一步提升了录音质量。尽管测试中生成的语音仍略显机械化,但已能较好地模仿用户的语气。公司表示,未来将继续优化这一功能,并允许用户通过训练不同语音样本来获得更自然的效果。

除了文本转语音功能,Podcastle 还重新设计了其网站,整合了音频、视频、播客和 AI 旁白工具。Yeritsyan 表示,虽然大多数用户主要使用 Podcastle 处理音频内容,但视频内容的处理需求也在快速增长。这一整合将使 Podcastle 在竞争中占据更大优势。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com
相关产品