维度网讯,谷歌推出名为纳米香蕉(Nano Banana)的系列AI图像生成与编辑模型,该系列基于Gemini 3架构构建。Nano Banana并非独立运行的文本转图像工具,而是一个与Gemini底层认知大脑协同工作的视觉执行系统,能够将密集数据集、品牌套件和复杂布局转化为像素级输出。
目前产品线包含三个模型:
模型 | 官方名称 | 速度 | 最佳用途 |
| Nano Banana | Gemini 2.5 Flash Image | 快 | 日常编辑、基本生成 |
| Nano Banana Pro | Gemini 3 Pro Image | 较慢 | 品牌工作、印刷、精确输出 |
| Nano Banana 2 | Gemini 3.1 Flash Image | 最快 (3× Pro) | 快速迭代、社交内容、模型 |
Nano Banana 2并非Pro的降级版,而是为不同工作构建的不同工具——速度与数量 vs. 精致与精确。
用户可通过以下平台访问这些模型:
平台 | 可获得内容 |
| Gemini App (iOS/Android/Web) | 完全访问,包含免费层级——最简单的起点 |
| Google Search (AI Mode) | 在搜索结果中快速生成 |
| Google Lens | 通过Lens Create功能创建图像 |
| Google AI Studio | 开发人员测试和提示词实验 |
| Gemini API / Vertex AI | 生产部署、批量工作流、治理控制 |
| Google Slides ("Help me visualize") | 幻灯片中的内联视觉生成 |
Nano Banana 2和Nano Banana Pro均可通过Gemini应用免费使用,但Pro有生成上限,达到上限后应用会自动回退到基础模型。
核心规格方面:Nano Banana 2(Gemini 3.1 Flash Image)每张图像生成速度2至5秒,最大分辨率4K(4096×4096),提供原生512px、1K和2K选项,支持15个宽高比(包括8:1和1:8的极端格式),在一个系列中最多支持4个角色,单次提示词中最多14个对象参考,输入令牌限制131,072,输出令牌限制32,768,文本渲染准确率约87%,具备实时网络搜索功能,每张图像成本较Pro便宜约75%。Nano Banana Pro(Gemini 3 Pro Image)每张图像生成速度约10至15秒,原生4K分辨率,标准宽高比(1:1, 16:9, 9:16, 4:3, 3:4, 21:9等),最多5个角色,最多14个对象参考,输入令牌限制65,536,输出令牌限制32,768,文本渲染准确率约64%,同样支持实时网络搜索和风格锁定功能。两个模型均共享C2PA Content Credentials、SynthID不可见数字水印、多语言文本生成(10种以上语言),知识截止日期为2025年1月,辅以实时搜索。
谷歌提供了五个提示框架以获取最佳输出。第一是文本到图像(无参考),公式为主体+动作+地点/背景+构图+风格。示例提示词:“一位30多岁疲惫的软件工程师,眼下有黑眼圈,坐在杂乱的办公桌旁,周围是空咖啡杯。她正盯着泛着微弱绿光的显示器。低角度中景。电影色调,柔和的蓝绿色调,纪录片式灯光。”
第二是多模态生成(带参考图像),公式为参考图像+关系指示+新场景。示例提示词:“使用附上的产品照片作为对象,附上的情绪板作为风格参考,将产品放置在阳光普照的海滨咖啡馆环境中。保持产品比例精确。生活场景照片,编辑级质量。”
第三是图像编辑(对话式),五个核心编辑动词:添加(Add)、移除(Remove)、替换(Replace)、改变(Change)、制作(Make)。专业提示:始终告诉模型保留什么、改变什么,添加“保持主体的面部和衣物完全不变”可减少输出漂移。
第四是实时数据可视化,Nano Banana 2可从网络拉取实时信息并可视化。示例提示词:“搜索伦敦今天的空气质量指数。将数据表示为智能手机UI模型中的干净插图仪表盘。使用简单的图标系统——绿色表示良好,琥珀色表示中等,红色表示差。包含行政区名称和时间戳。”
实时数据功能有前景但非万无一失,已知日期和统计信息可能拉取过时信息,发布前应交叉检查。
第五是像创意总监一样写提示词,可指定灯光选项(柔和补光、戏剧、自然温暖、产品洁净)、相机和镜头语言(如“用Fujifilm X100V拍摄,自然色彩科学”)、色彩分级快捷方式(怀旧、情绪化电影、干净商业)、材质和纹理提示(如“超大号复古牛仔夹克,预洗靛蓝,接缝处有应力痕迹”)。
文本渲染方面,Nano Banana 2的文本准确率目前是所有AI图像模型中最好的之一。为最大化效果:始终使用引号括起要渲染的文本;指明字体或描述;指定颜色和大小关系;使用文本优先技巧——先让Gemini生成文本副本,再要求包含该副本的图像;直接指定目标语言进行本地化;不建议依赖它来生成长文正文。
宽高比快速参考:1:1用于Instagram帖子、个人资料图片;16:9用于YouTube缩略图、演示文稿;9:16用于Reels、TikTok、故事、移动广告;4:5用于Instagram信息流(最佳互动格式);21:9用于电影宽屏、网站英雄横幅;8:1(仅Nano Banana 2)用于超宽网站头部、邮件横幅;1:8(仅NB2)用于垂直移动应用素材、侧边栏图形;3:2用于印刷摄影标准;4:3用于演示文稿幻灯片。
模型选用指南:选用Nano Banana 2的场景——快速迭代、社交媒体、网页图形、需要可读文本(其文本准确率高于Pro)、成本敏感(便宜75%)、需要极端宽高比、批量构建;选用Nano Banana Pro的场景——印刷或大幅面显示、复杂多主体场景需要最大逼真度、大批量图像中品牌一致性重要、高端产品摄影、提示词长且高度具体。
常见失败及解决方法:脸部融合或扭曲(参考提示词模糊,添加“保持每个人视觉上独特”);手指太多(重生成或裁剪构图);风格漂移(在提示词中包含一致风格短语或引用之前输出);文本乱码(使用引号、指定字体、保持文案简短);实时数据过时(手动验证);输出忽略部分提示词(分解为顺序提示词);图像模糊(添加“清晰对焦,高清晰度”);宽高比恢复默认(在提示词开头说明比例)。
水印与AI检测方面,每张Nano Banana生成的图像都携带两层:SynthID——一种不可见的像素级数字水印,人眼无法察觉但检测工具可读取,Gemini应用中的SynthID验证功能已使用超过2000万次;C2PA Content Credentials——一种元数据标准,记录图像的创建方式包括AI参与,验证功能正在向Gemini应用推出。这意味着AI生成图像在使用正确工具时在技术上是可识别的,但水印在随意浏览社交媒体时不可见。
快速参考提示词启动器包括:产品模型提示词、带文本的社交媒体图形、信息图幻灯片、角色一致系列、照片修复、本地化营销素材等。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









