美国谷歌发布Nano Banana 2 Lite，图像生成仅4秒

2026-07-01 13:46

关键词:

维度网讯，谷歌近期发布了两款面向开发者的新模型：Gemini Omni Flash与Nano Banana 2 Lite。前者将多模态推理与视频生成编辑深度结合，后者则主打高速图像生成。

Gemini Omni Flash模型曾在Google I/O 2026大会上亮相，其核心能力是将Gemini的多模态推理整合至视频的生成与编辑流程中。该模型现已通过Gemini API和Google AI Studio开放。其四项关键能力包括：对话式视频编辑，支持用户使用自然语言精修视频；多模态参考，可结合图像、文本、视频输入以保持场景一致性；调用Gemini在历史、生物、叙事逻辑等领域的知识构建视频；以及通过简单提示词实现文字与视频动作的同步。在价格方面，Omni Flash每秒视频输出成本为0.10美元，与Veo 3.1 Fast持平。

谷歌同时列举了该模型现阶段的局限：目前仅支持10秒视频生成，暂不支持音频参考上传和场景扩展，API支持最长3秒的视频作为参考素材但模型尚无法正确处理此类输入，且场景切换与运镜时的人物一致性仍有限。

另一款模型Nano Banana 2 Lite名为gemini-3.1-flash-lite-image，专为延迟敏感场景优化。其核心卖点在于图像生成延迟约为4秒，是Nano Banana 2的五分之一；生成一张1K分辨率图像的成本约为0.034美元，为Nano Banana 2的一半、Nano Banana Pro的四分之一。在文字渲染与基准测试上，Nano Banana 2 Lite与Grok等模型处于同一水平，适用于电商素材批量生成、广告创意迭代等场景。

谷歌展示了将两款模型串联使用的工作流：先用Nano Banana 2 Lite高速出图，再将生成的图像作为参考素材输入Gemini Omni Flash，将其转化为视频。为此，谷歌开发了三个演示应用：Anywhere，可将自拍或上传的照片合成至地标景点并生成动态短片；Space Lift，上传房间照片后生成不同装修方案并可转化为空间漫游视频；Omni Product Studio，为电商产品生成场景化图片及广告短视频。