美国谷歌推出全新多模态AI模型Gemini Omni,实现跨文本、音频、图像及视频的无缝交互
2026-05-20 09:25
收藏

维度网讯,在5月19日于美国加利福尼亚州山景城举行的Google I/O 2026年度开发者大会上,谷歌公司正式发布了其下一代多模态人工智能模型——Gemini Omni。这一全新模型并非对现有大语言模型的简单升级,而是被定位为全球首个实现文本、音频、图像与视频真正意义上“无缝理解与跨模态生成”的通用世界模型,标志着AI正从预测文本迈向模拟现实的关键一步。

在大会的主题演讲中,谷歌首席执行官Sundar Pichai与谷歌DeepMind首席技术官Koray Kavukcuoglu等高管详细展示了Omni如何消除传统AI模型的边界。与以往调用多个单模态模型的“瑞士军刀”架构不同,Omni在单一神经网络中构建了一套统一的感知与生成机制。现场演示充分展现了其“世界知识”驱动下的创造力:系统能够接受一段文字描述,并将复杂的蛋白质折叠科学原理实时渲染为一段配有专业旁白的黏土动画解说视频;它能与用户手绘的一条简笔画鱼进行动态交互,并赋予其流动的生命力;还能精准识别天文级别的“黑洞”素描概念,并将其转化为深入浅出的科学讲解视频。

这种强大的多模态交互能力,源于Omni将Gemini的底层推理逻辑与谷歌积累的生成式媒体资产进行了深度融合。谷歌DeepMind首席技术官Koray Kavukcuoglu在媒体简报会上指出,相较于谷歌之前推出的、主要用于文本到视频转换的Veo模型,Omni具备了“海量的世界知识”和更深层次的语义理解能力。它不再只是简单地将用户的提示拼接成画面,而是能够依据其对物理规律、文化背景甚至科学逻辑的理解,来生成看似合理且前后统一的视频内容。

率先落地的Gemini Omni Flash版本,专为当下最广泛的视频创意与编辑需求设计。该模型现已向全球用户开放,首批深度集成于Gemini App、Google Flow创意工作室以及YouTube Shorts中,且即将通过应用程序接口(API)面向开发者提供服务。在交互体验层面,Omni打破了传统视频编辑软件复杂的操作门槛,引入了“对话式编辑”功能:用户只需通过一句自然语言指令,便能让AI修改视频中的角色形象、替换故事背景,或是将一段随手拍摄的手机视频实时转换为另一种视觉风格。

为了应对日益严峻的深度伪造等伦理挑战,谷歌在发布Omni的同时,采取了一系列严格的安全防范举措。谷歌DeepMind负责产品管理事务的Nicole Brichtova明确表示,Omni并非一种无限制的创作工具,尤其在克隆真人的数字分身环节,用户必须通过专门的产品引导流程,录制一段特定的数字读数视频,以完成身份识别与授权。更为关键的是,所有由Omni创建或编辑的视频内容,都将被永久性地嵌入SynthID隐形数字水印,以供外界验证其是否为人工智能生成。

此次Omni模型的发布与谷歌整体的商业与基础设施策略高度协同。在大会上,谷歌同步推出了算力效率极高的Gemini 3.5 Flash模型,以及全新的第八代TPU双芯片架构,旨在向企业客户提供更具性价比的云端训练和推理服务。这预示着,随着多模态大模型开始向深层逻辑理解演进,AI不仅在创造内容,更在以一种前所未有的方式去“理解”和“模拟”我们所处的物理世界。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com