维度网讯,6月2日至3日,美国微软在Build 2026期间发布Windows AI APIs更新,新增端侧语音识别API,并推出Aion 1.0 Instruct和Aion 1.0 Plan两类面向本地运行的小语言模型。该系列能力主要面向Windows 11开发者,用于在个人电脑端实现语音转文本、文本智能处理和本地代理式任务执行。
此次更新把语言处理能力进一步放到终端侧。新增语音识别API支持从麦克风、音频流和音频文件中生成实时或批量转写结果,可用于字幕生成、听写输入、音视频应用和无障碍工具。微软强调,该能力在本地运行后,即使没有网络连接也可生成转录内容,并减少对云端推理的依赖。对于企业软件、会议工具、工业现场记录、远程运维和教育培训系统而言,端侧语音转写的价值在于降低延迟、减少云端调用成本,同时让部分敏感语音数据尽量留在设备本地处理。随着AI进入更多办公和行业终端,语音识别正在从单独功能模块转向操作系统级基础能力。
Aion 1.0 Instruct定位为面向端侧工作负载的小语言模型,可支持摘要、改写、意图识别和无障碍相关文本智能任务。
Aion 1.0 Plan则面向本地代理式推理场景,模型规模为140亿参数,支持3.2万上下文长度和工具调用能力,可帮助应用理解用户意图、调用工具、管理文件并编排子代理。微软计划让该模型作为Windows的一部分在具备条件的设备上运行,使部分代理式流程从云端下沉到本地设备。对开发者来说,这意味着未来桌面应用可以在操作系统层直接调用文本理解、语音识别和工具编排能力,而不必为每个应用单独集成外部模型服务。对于企业IT部门而言,端侧模型还会带来新的治理问题,包括模型权限、文件访问边界、用户身份识别、数据留存、设备性能和跨应用审计等,后续能否大规模进入企业场景,将取决于本地AI能力与安全管理机制是否同步成熟。
微软还宣布Windows AI APIs将扩展到更多Windows 11电脑,除NPU外,部分能力也将支持CPU和GPU。语音识别API初期以英语为主,后续将逐步扩展至更多全球市场。随着端侧模型、语音识别和本地代理能力被纳入Windows开发生态,语言处理技术正在从云端服务接口进入终端操作系统层,成为应用开发、无障碍交互和企业智能工作流的重要基础组件。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









