维度网讯,6月2日,美国微软在Build 2026期间推出MAI模型家族新成员,其中MAI-Transcribe-1.5面向语音转文本场景,支持43种语言,强调在真实噪声、口音、语速变化和行业专有词场景下提供更稳定的转录能力,并通过Microsoft Foundry等平台面向开发者和企业应用开放。
MAI-Transcribe-1.5的重点在于把语音识别从“可用转写工具”推进到企业级语音理解底座。会议纪要、客服质检、医疗访谈、远程培训、播客内容、销售通话和内部知识沉淀等场景中,企业真正需要的并不只是把声音转换成文字,还要在长音频、多口音、跨语言、嘈杂环境和大量专有名词中保持可读、可检索和可复用。微软在官方说明中提到,MAI-Transcribe-1.5针对真实世界音频增强了鲁棒性,并支持面向领域术语的关键词偏置能力,使企业可以把人名、产品名、项目名、客户名和行业术语提前加入识别上下文,减少转录结果中最常见的实体误识别问题。
该模型还被纳入微软新一批MAI自研模型组合,与MAI-Voice-2、MAI-Code-1-Flash、MAI-Thinking-1等模型共同构成面向图像、语音、代码、推理和转录的多模态产品线。
从语言处理产业看,语音AI正在从独立能力走向业务流程嵌入。过去企业部署语音识别,常常需要在成本、准确率、转录速度和系统集成之间折中;当转录模型进入Foundry、Copilot、Teams、GitHub、Dynamics 365等微软生态后,语音数据可以更自然地进入会议摘要、客户关系管理、工单分析、知识库生成和智能体工作流。微软还提到,MAI-Transcribe-1.5后续将补充说话人分离、原生流式API和更多语言支持,这意味着其目标不止于批量转录文件,也会面向实时会议、语音助手、呼叫中心和在线协作场景继续扩展。
这类模型的产业价值会体现在企业音频数据资产化上。大量企业每天产生会议录音、客服通话、培训材料、电话销售记录和多媒体内容,但这些音频如果无法被准确转录、归档、检索和分析,就很难进入AI应用链路。MAI-Transcribe-1.5支持43种语言、领域术语偏置和生产级API调用,能够降低跨国企业、多语种服务团队和全球客户运营场景中的语音数据处理门槛。随着语音转文本模型与智能体、搜索、知识库和业务系统结合,语言处理小类中的竞争焦点正在从单次识别准确率,转向“转录—结构化—分析—自动执行”的连续工作流。
后续变量集中在流式转录能力上线节奏、说话人分离效果、多语言长期稳定性、企业专有词配置成本,以及在客服、会议、医疗、教育和内容平台中的实际落地表现。对企业用户而言,微软把自研语音模型纳入其生产级AI平台,也会增加语音AI供应商之间在准确率、延迟、成本、合规和生态集成方面的竞争。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









