中国Soul App开源SoulX-Transcriber，多人对话转录模型打通说话人、时间戳与文本识别

2026-06-03 16:22

关键词:

维度网讯，6月3日，Soul App AI团队(Soul AI Lab)联合西北工业大学音频语音与语言处理研究组ASLP@NPU团队及Moonstep AI，正式开源端到端多人对话转录模型SoulX-Transcriber。该模型面向长音频、多说话人对话场景，可直接从多人对话音频中生成包含时间戳、说话人身份和转录文本的结构化结果。

SoulX-Transcriber瞄准的是语音识别在真实对话场景中的复杂问题。会议、播客、群聊、客服质检、访谈和多人语音社交场景里，音频并不是单一说话人按顺序发言，而是经常出现多人快速轮换、插话、重叠发声、同声线混淆、背景噪声和边界切分不准等情况。传统方案通常把语音活动检测、说话人分离、说话人聚类和自动语音识别拆成多个模块串联，任何一个环节出错，都会在后续转录中放大。SoulX-Transcriber采用端到端框架，把“谁在说、什么时候说、说了什么”放进统一模型中处理，试图减少级联系统中的误差传递，并提升多说话人场景下的结构化理解能力。

开源仓库信息显示，SoulX-Transcriber支持中文和英文模型权重下载，并采用Apache 2.0许可。

从技术路径看，该模型基于大音频语言模型框架，采用说话人感知的多阶段训练策略，强化说话人表征、边界感知和重叠语音识别能力。其技术报告介绍，模型在训练中结合伪标注真实对话数据与模拟多人对话数据，一方面保留真实音频中的声学环境和互动特征，另一方面通过可控模拟数据增强说话人差异、对话结构和跨域泛化能力。在AISHELL-4、AliMeeting、AMI等多说话人会议数据集上，SoulX-Transcriber展示了面向多人语音转录的性能表现;在内部通用场景评测中，也覆盖了日常对话、影视音频、播客等更复杂的多域数据。对于开发者而言，模型不仅能输出普通转录文本，还能把说话人标签和时间边界同步生成，使音频内容更容易进入会议纪要、内容审核、知识库整理、客服分析和多媒体检索流程。

这类模型对语音交互产品和企业音频数据处理具有直接价值。大量企业已经积累了会议录音、电话录音、培训音频、访谈材料、播客内容和客服对话，但这些音频如果不能准确区分说话人、时间段和文本内容，就难以转化为可搜索、可分析、可复用的数据资产。多人对话转录模型把原始音频转为结构化结果后，可以进一步连接摘要生成、议题提取、情绪分析、知识沉淀和业务质检等下游应用。Soul App本身具备多人语音互动和社交场景，Soul AI Lab持续开源语音、数字人、播客生成等模型，也说明其AI技术路线正在围绕实时互动、多模态表达和对话理解形成连续布局。

从语言处理产业角度看，语音识别正在从单句转写进入“真实多人对话理解”阶段。未来企业和平台需要的不是简单把声音转成文字，而是把复杂音频还原成可追踪、可归因、可编辑、可检索的结构化内容。SoulX-Transcriber开源后，研究者和开发者可以围绕会议转录、长音频处理、多人说话人识别、播客内容结构化和语音社交数据分析进行二次开发。后续变量将集中在真实长音频稳定性、跨语言扩展、噪声环境适应能力、说话人数量上限、推理成本，以及与企业工作流和内容平台系统的集成效果。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国