中国阿里千问PC端上线AI语音输入,跨应用智能助手功能全面开放
2026-05-07 14:50
收藏

维度网讯,阿里巴巴旗下大模型产品“阿里千问”于2026年5月7日在PC端正式上线AI语音输入功能,目前已向所有用户免费开放。该功能深度整合了自然语言处理与大模型能力,通过快捷键即可在各类桌面应用中直接使用,将语音识别与实时智能处理融为一个系统级的智慧工作入口。

这款内嵌于千问PC客户端的智能语音助手,操作路径被精简到极致:用户在微信、钉钉、Word或浏览器等任何桌面应用中,只需按下预设的快捷键唤起悬浮窗口并开始说话,语音即可实时转化为结构化文字并直接输入至当前工作页面。其内置的实时语义理解引擎同步对自然口语进行处理——用户表达中的“那个”“嗯”等冗余词被实时过滤,口误之处得到自动修正,生成的文本自动完成格式化排版。当用户在聊天框中口述会议通知要求时,助手可直接输出工整的待发内容,无需二次编辑。

跨应用场景的适配是该语音助手区别于传统语音转文字工具的核心特征。在文档编辑场景中,用户可随时用语音下达指令,如直接口述“帮我插入2025年全国GDP数据”,AI助手便会直接检索并插入相应内容。在图文创作场景中,面对长篇英文资料,用户只需划选相应段落,说出“解释一下”或“翻译成中文”,助手即可自动执行操作。在即时通讯场景中,当用户收到英文邮件或消息时,只需用中文口述回复要点,助手便会根据上下文自动生成并填入格式正确的英文邮件,使用者无需在多个应用之间反复切换和复制粘贴。

大模型能力构成了这套语音助手的技术底盘。传统的语音输入工具仅完成声学信号到文字的单一转换,而千问PC端的AI语音输入则叠加了语义理解、逻辑推理与内容生成三个处理层。当用户说出模糊指令时,大模型可结合上下文推断用户真实意图;当用户口述不完整的段落时,大模型可自动补全并保持行文风格统一;当用户需要数据支撑时,大模型可同步检索权威信息并嵌入文本。这四个处理环节在一套工作流内闭环完成,用户所见即所得。

PC端语音输入工具目前主要集中在输入法层面的语音转文字能力,缺乏对语义理解和内容生成的支撑;移动端的AI语音助手受限于算力和交互界面,难以承载复杂的工作流任务。PC端的算力优势使得更复杂的自然语言理解和实时任务处理成为可能,阿里千问选择将语音交互作为PC端的核心入口,将大模型的逻辑推理与创造性生成能力直接嵌入用户工作流中的每一个环节。

阿里千问近期在PC端和移动端同步加速布局。早在2025年4月,千问PC端已上线AI划词功能,支持用户在选中文字后一键唤醒AI助手完成搜索、翻译、解释或续写等操作。同年3月,阿里宣布三年投入3800亿元建设云与AI硬件基础设施。此次AI语音输入功能的上线,是千问从文字交互向语音交互、从被动响应向主动理解进一步延伸的关键一步。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com