美国谷歌发布Nano Banana 2 Lite,图像生成仅4秒
2026-07-01 13:46
收藏

维度网讯,谷歌近期发布了两款面向开发者的新模型:Gemini Omni Flash与Nano Banana 2 Lite。前者将多模态推理与视频生成编辑深度结合,后者则主打高速图像生成。

Gemini Omni Flash模型曾在Google I/O 2026大会上亮相,其核心能力是将Gemini的多模态推理整合至视频的生成与编辑流程中。该模型现已通过Gemini API和Google AI Studio开放。其四项关键能力包括:对话式视频编辑,支持用户使用自然语言精修视频;多模态参考,可结合图像、文本、视频输入以保持场景一致性;调用Gemini在历史、生物、叙事逻辑等领域的知识构建视频;以及通过简单提示词实现文字与视频动作的同步。在价格方面,Omni Flash每秒视频输出成本为0.10美元,与Veo 3.1 Fast持平。

谷歌同时列举了该模型现阶段的局限:目前仅支持10秒视频生成,暂不支持音频参考上传和场景扩展,API支持最长3秒的视频作为参考素材但模型尚无法正确处理此类输入,且场景切换与运镜时的人物一致性仍有限。

另一款模型Nano Banana 2 Lite名为gemini-3.1-flash-lite-image,专为延迟敏感场景优化。其核心卖点在于图像生成延迟约为4秒,是Nano Banana 2的五分之一;生成一张1K分辨率图像的成本约为0.034美元,为Nano Banana 2的一半、Nano Banana Pro的四分之一。在文字渲染与基准测试上,Nano Banana 2 Lite与Grok等模型处于同一水平,适用于电商素材批量生成、广告创意迭代等场景。

谷歌展示了将两款模型串联使用的工作流:先用Nano Banana 2 Lite高速出图,再将生成的图像作为参考素材输入Gemini Omni Flash,将其转化为视频。为此,谷歌开发了三个演示应用:Anywhere,可将自拍或上传的照片合成至地标景点并生成动态短片;Space Lift,上传房间照片后生成不同装修方案并可转化为空间漫游视频;Omni Product Studio,为电商产品生成场景化图片及广告短视频。

参考链接:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/