美国谷歌推出Gemini 3.5实时语音翻译模型
收藏

维度网讯,6月9日,美国谷歌宣布推出Gemini 3.5 Live Translate实时语音翻译模型。该模型面向实时语音到语音翻译场景,可自动检测70多种语言,生成更自然流畅的翻译语音,并尽量保留说话者的语调、语速和音高,即日起在谷歌翻译、Gemini Live API、Google AI Studio和Google Meet等产品与服务中陆续推出。

Gemini 3.5 Live Translate的核心能力集中在连续音频流处理和低延迟语音生成。传统实时翻译系统往往需要等待说话者停顿或完成一句话后再进行翻译,容易出现明显等待、断句不自然和语气丢失等问题。谷歌这次推出的模型会在说话过程中持续处理音频,在获取上下文和保持同步之间进行动态平衡,让翻译语音始终以较短延迟跟随原始讲话。对跨国会议、在线课堂、直播、客服通话、旅游沟通和多语言协作场景来说,这类模型的价值在于让翻译体验更接近同声传译,而不是简单把语音转写为文字后再机械朗读。模型能够在多语言输入中自动识别语言,减少用户手动切换设置的步骤,也能在嘈杂环境中提升实际可用性。

该模型支持70多种语言,并可覆盖Google Meet中超过2000种语言组合。开发者可通过Gemini Live API公测版本接入,企业用户可在Google Meet私测中体验,普通用户则可在Android和iOS版谷歌翻译中逐步使用。

对谷歌而言,Gemini 3.5 Live Translate把大模型能力进一步推向高频沟通入口。翻译一直是谷歌长期积累的数据和产品场景之一,过去更多围绕文本翻译、拍照翻译、对话翻译和离线翻译展开。随着原生多模态模型发展,语音翻译开始从“识别—翻译—合成”的分段流程,转向更连贯的音频端到端体验。Gemini 3.5 Live Translate如果能在真实会议、移动端、耳机和开发者应用中稳定运行,将增强谷歌在实时通信、办公协作、语言学习和跨境服务中的AI入口位置。对于开发者和企业客户而言,Gemini Live API提供的实时翻译能力也可被嵌入视频会议、在线教育、客户支持、直播互动和多语言内容分发系统,推动语音AI从单点功能变成应用基础能力。

谷歌还为该模型生成的音频加入SynthID水印,用于提高AI生成音频的可识别性。后续落地效果仍取决于复杂口音识别、多人快速对话、长时间语音稳定性、背景噪声处理和不同语言之间语义保真度。实时语音翻译正在成为大模型产品化的重要方向,谁能在低延迟、自然度、准确率和产品覆盖范围之间形成稳定体验,谁就更容易掌握下一阶段跨语言沟通工具的入口。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com