Sesame发布支持虚拟助手Maya的基础AI模型

2025-03-15 16:50

关键词:

AI公司Sesame近日发布了其基础AI模型CSM-1B，该模型为其广受欢迎的虚拟助手Maya提供技术支持。CSM-1B是一个包含10亿参数的模型，采用Apache 2.0许可，允许商业用途几乎不受限制。该模型通过文本和音频输入生成“残差矢量量化”(RVQ)音频代码，这是一种将音频编码为离散标记的技术，广泛应用于最新的AI音频技术中，如Google的SoundStream和Meta的Encodec。

CSM-1B基于Meta的Llama系列模型构建，并配备了音频解码器组件。Sesame表示，经过微调的CSM变体为Maya提供了核心支持。Sesame在其Hugging Face和GitHub存储库中写道：“这里开源的模型是一个基础生成模型，能够生成多种声音，但尚未针对特定声音进行微调。”该公司还指出，由于训练数据中的“数据污染”，该模型对非英语语言的支持有限，表现可能不佳。

目前，Sesame尚未公开CSM-1B的训练数据来源。值得注意的是，该模型缺乏实质性的安全措施。Sesame仅通过荣誉系统敦促开发者和用户不要未经许可使用该模型模仿他人声音、制作虚假新闻或从事“有害”或“恶意”活动。在Hugging Face的演示中，用户可以在不到一分钟内克隆自己的声音，并生成涉及争议话题的语音内容，如选举和俄罗斯宣传。

《消费者报告》近期警告称，市场上许多流行的AI语音克隆工具缺乏“有意义”的保障措施，难以防止欺诈或滥用。Sesame由Oculus联合创始人Brendan Iribe共同创立，凭借其虚拟助手技术Maya和Miles在2月下旬迅速走红。这些助手能够以逼真的方式呼吸和说话，支持打断对话，类似于OpenAI的语音模式。

Sesame已从Andreessen Horowitz、Spark Capital和Matrix Partners等投资机构筹集了未公开的资金。除了开发语音助手技术外，该公司还在研发一款“专为全天佩戴”设计的AI眼镜原型，该眼镜将搭载其定制模型。

美国