NanoBanana Pro 深度实践和思考

当你在凝视深渊，深渊也在凝视你。 --尼采

01. Pro

Nano Banana Pro，由谷歌推出的，目前世界上最强的生图模型之一。

概括一下特点，就是 基于增强的推理能力、世界知识和实时信息，生成更准确、更具丰富内容细节的视觉效果。Generate more accurate, context-rich visuals based on enhanced reasoning, world knowledge and real-time information --Google Deepmind其中 推理能力和世界知识 来自于 Gemini 3，实时消息来自于 Google Search。

特点

世界知识（Gemini）

基于 Gemini 3 实现逻辑推理，并接入了 Google Search 外挂知识。

工作室级别的画质输出

支持 1k ～ 4k 的不同输出规格。

更清晰的文本输出

规格

画幅比例

支持从 1:1 到 21:9 不同规格的图片宽高比例，适合各类场景的图片输出。

02. Cases

一些用于测试画面素质和模型能力的case。

自然风景

提示词如下：Aerial photograph of the vibrant geothermal areas in Iceland's Highlands. The landscape is a chaotic mix of rhyolite mountains colored in streaks of ochre, sulfur yellow, neon green moss, and deep rust red. Steam vents rise from the ground creating geothermal pools with brilliant turquoise water. The texture of the cracked earth and mineral deposits is extremely sharp and detailed. High altitude drone shot, natural daylight, astonishing color palette.

(中文意译：冰岛高地充满活力的地热区的航拍照片。景观是流纹岩山脉的混沌混合体，呈现出赭石色、硫磺黄、霓虹绿苔藓和深锈红色的条纹。蒸汽喷口从地面升起，形成了有着鲜艳绿松石色水的地热池。龟裂的土地和矿物沉积物的纹理极其锐利和细致。高空无人机拍摄，自然日光，令人惊叹的调色板。)

人物写实

提示词：Extreme Close-up Portrait: An elderly fisherman with weather-beaten skin, standing in a heavy rainstorm at night. Every raindrop on his face is visible, refracting the dim street lights. Detailed pores, facial fuzz, wet matted gray hair, water dripping from the tip of his nose. Shot on Sony A7R IV, 85mm lens, f/1.8, hyper-realistic, cinematic lighting, 8k resolution, raw style. 特写肖像。一位饱经风霜的老渔夫站在暴雨的夜里。每一滴雨水都在他的脸上清晰可见，折射着昏暗的路灯。极度清晰的毛孔、面部绒毛、湿漉漉的灰白头发，水珠正从他的鼻尖滴落。索尼 A7R IV 拍摄，85mm 镜头，超写实，电影级布光。

微距

综合对比了一下，高清微距场景似乎不是 nano-banana-pro 的强项。seedream 让我有些意外，玻璃上的微尘也能很清晰地分辨出来。

提示词如下：Macro Mechanical Watch: Extreme macro photography of the internal tourbillon mechanism of a luxury mechanical watch. Gears made of rose gold, blue steel screws, and synthetic ruby bearings. Visible dust particles floating in the air, scratches on the metal surface, complex reflections of the studio lights on the curved sapphire glass. Depth of field focus stacking.微距机械表。奢华机械表内部陀飞轮装置的极致微距摄影。玫瑰金齿轮、蓝钢螺丝和合成红宝石轴承。空气中漂浮的微尘、金属表面的微划痕、弯曲蓝宝石玻璃上复杂的工作室灯光反射。景深堆叠技术。

一组蝴蝶翅膀的渲染实验，对比之下，imagen4 也像是一个怪物...。

材质

从对比中可以看出，Nano banana pro 对于材质的理解非常准确，水滴凝结而成的阶梯也能很好的还原。

提示词：一栋无限循环的彭罗斯阶梯，但所有台阶都由水滴凝结而成，漂浮在一个封闭的玻璃立方体内。极简主义风格，超现实主义摄影。

多图组合

官方说最多支持 14 张参考图，通过 AI 来融合成最终的画面。但是我实际测试了一下，15 张素材图塞进去也能生成出来。所以，nano banana pro 的极限到底在哪里？我暂时还没测出来。

03. 对比

上面的例子将 NanoBananaPro 与 Seedream 4.0 进行了对比，但是差异看得不是很明显，接下来我们上点强度，中间部分案例也加入了 Wan2.5 以及 hunyuan-image-3.0 来辅助对比。

宝可梦

通过控制矩阵数量，测试模型生成的极限，

主要观察三个维度：

矩阵方格数量是否对得上
每个方格内的元素，是否能够准确渲染，不受周边方格的影响
文字和方格线是否存在扭曲变形

提示词：The Ultimate Pokémon Poster: A massive 100x100 grid containing exactly 10000 different Pokémon faces. The grid is perfectly symmetrical. Every single square contains a clear, front-facing portrait of a different Pokémon, and labeled with its correct name in tiny, sharp typography at the bottom of the square. Vibrant colors, sticker sheet aesthetic. No blurring, no distortion, perfect alignment. Extreme resolution, macro details. 4k 1:1 best quality.

地铁线路图

也是给模型做压力测试，通过控制变量（线路数量）来逐步上强度。

10 条线：初级。20 条线：开始出现拥挤。30 条线：考验拓扑逻辑（是否会断线），以及精细程度。

提示词：A minimal overhead subway map of a fictional city featuring exactly 10 distinct metro lines. Each line has a unique, high-contrast color. The lines flow smoothly with 45-degree or 90-degree turns. Station stops are marked with clean white circles with black outlines. No text overlaps. Massive negative space, clean composition. 4k resolution, vector graphic style.

地理还原

提示词：以这个位置为地标，将其设为等距图像（仅建筑物），采用游戏主题公园的风格

东京地铁线路图

这个例子是真的有惊艳到我，Nano Banana Pro 生成的路线图，除了风格化之外，和东京官方的路线图几乎一致，我都怀疑它是不是通过 Google Search 找到图片后直接垫图了。

提示词: 东京地铁线路图

滕王阁序

汉字是世界上字符量最多的语言字符集，在 UniCode 中常用汉字就有 2w+。每一个汉字，背后都带有复杂的语义。模型对汉字的理解以及渲染的控制能力，侧面也能反映模型的水平。

提示词：中国书法，《滕王阁序》选段，采用工整的楷书书写，字迹清晰，整齐的竖排布局，极简。选段文本如下：“时维九月，序属三秋。潦水尽而寒潭清，烟光凝而暮山紫。俨骖騑于上路，访风景于崇阿。临帝子之长洲，得天人之旧馆。层峦耸翠，上出重霄；飞阁流丹，下临无地。鹤汀凫渚，穷岛屿之萦回；桂殿兰宫，即冈峦之体势。披绣闼，俯雕甍，山原旷其盈视，川泽纡其骇瞩。闾阎扑地，钟鸣鼎食之家；舸舰弥津，青雀黄龙之舳。云销雨霁，彩彻区明。落霞与孤鹜齐飞，秋水共长天一色。渔舟唱晚，响穷彭蠡之滨；雁阵惊寒，声断衡阳之浦。” 9:16

这段《滕王阁序》节选的中文汉字总数（不含标点符号、空格）为 162 个，其中 Nano-banana-pro 完成 147 个字的正确渲染，其中甚至包含一些偏僻字，确实能力恐怖。

04. 实用场景

看了非常多大家的不同例子，总结了几个大方向，每个方向都有很多可能性：

推理、拆解、还原、融合、排版

如果没有灵感的话，就从上面的方向来寻找新的灵感吧。

我尝试对我看到的各类应用场景进行收敛，但实在是太多了，而且新的创意不断涌现。我意识到这事情不可为，这是在直面人类的创意极限，然后下面纯粹是我自己整理的几个分类，仅供参考。

效率雪碧图

作为做过前端和游戏研发的选手，脑子里一下就想到了雪碧图这玩意，极大地提升了效率。下面就给鬼灭之刃的炭治郎，创作一幅角色动画雪碧图。

提示词A game spritesheet rendered in 8-bit pixel art style featuring Tanjiro Kamado from Demon Slayer. He wears his green checkered kimono. The sheet should include various actions laid out on a grid with a transparent background: standing idle, walking sideways, swinging his sword with blue water pixel effects, and jumpin.

图像编辑

几乎是实现了言出法随，比如图像中的元素编辑、场景编辑、风格迁移、照片修复等等，这类的示例太多了，想象力有多丰富，这类的 Case 便有多丰富，这里就放一个姿势控制的 case。提示词：保持背景不变，生成宇航员在太空中的各种姿势图，Grids

翻译

出国游玩时，最常见的场景就是看不懂菜单然后拿出翻译App拍照，这里也是引导模型来翻译图片中的内容。实测过程中，发现“法语”的菜单 Nano banana pro 似乎不太擅长，对比起来还不如 seedream🤔。

提示词：这是一份菜单，提升清晰度，矫正画面，并翻译成中文，最终生成翻译后的图片

分镜

NanoBananaPro 的主体控制能力真的很强，虽然之前生图模型也能做分镜，但是没有像它这样子控制得那么好。下面是官方给的case 👇

商业设计

提示词：参考这个配图，生成后续的六张配图，分别对应极氪 001 的六大安全独家秘笈

用户指南

提示词框架如下：主题：xxx 整体画风要求：xxx 画面比例：xxx第一格：xxx ；第二格：xxx；...

平面设计

影响行业（新媒体、广告、运营等），所有的工作流都会被重构一遍。

封面制作

提示词：小红书封面图，秋天的第一杯奶茶，3:4

VI 设计

提示词：高角度专业商业摄影，展示一组在光滑深色石板表面上排列整齐的品牌周边系列。该系列包括一件折叠的重磅黑色纯棉连帽衫、一个哑光黑色陶瓷马克杯、一个帆布手提袋和一本精装笔记本。所有物品上都醒目地展示着一个特定的白色图形Logo：一个倾斜的行星轨道环，环绕着中心放射状的尖锐星芒。光线采用戏剧性柔和的影棚布光，投下优雅的阴影。超逼真的面料纹理，8k分辨率，极简美学，干净的布局，高度细节化的产品视觉效果。

插画

提示词：Minimalist abstract surreal illustration, pure black and white gray monochrome palette. A vast, dark, empty landscape of repeating, matte-textured abstract forms resembling barren dinner platters or desolate tables, covered in heavy grainy texture. In the center lower section, a solitary, glowing contour of a cooked Thanksgiving turkey, presenting a translucent halo effect with blurred edges. The turkey itself is the sole soft light source, illuminating the immediate surrounding abstract textures with bright white gradients. Slightly elevated high-angle view, center-focused composition, where the surrounding repetitive forms create a framing structure. The overall environment is extremely dark, conveying deep loneliness. Retain rough coarse grain texture across the entire image.

文章配图

提示词：为 “欲买桂花同载酒，终不似，少年游”生成一副配图

海报设计

提示词：一张高端、极简主义的抽象艺术海报，用于 HBO 剧集《我的数字生命》。构图聚焦于一个悬浮的球体，材质为哑光、多孔的雪花石膏白（象征有机意识）。球体右侧被干净利落地切去了一块几何形状，露出了内部完美抛光的深色钨金属核心。一滴沉重的液态铬水银正沿着粗糙的白色表面缓慢滑落，形成强烈的质感对比。背景是广阔、无特征的柔和狼灰色无限空间。光线采用影棚级柔光箱顶光，营造出柔和的环境光遮蔽效果，没有任何生硬的阴影。美学风格冷峻、充满哲学意味，酷似高概念画廊雕塑。哈苏相机拍摄，8k 分辨率，单色调色板，大量留白，极度锐利，建筑文摘风格。

菜单设计

一份西餐厅的菜单，汉语，包含“牛排”、“披萨”等菜品，平面设计，精美的图案

字体设计

提示词：生成 “罗小黑战记” 的字体设计图，要求采用不同的海报字体设计风格，Grids

漫画

线稿上色，我超爱这个能力，不敢想我以前刷漫时有这功能该有多爽。

下面是我非常喜欢的一部作品《大剑》的画稿，看一下上色后的效果，实在是太🐮🍺了，不仅上色合理，而可以补充细节，可以预见的是漫画制作里的上色师这个岗位，即将消失或者进化。图片是《クレイモア》（《大剑》）中的一页漫画，请你为其提升作画并上色

连环画

这对于 NanoBananaPro 这种就是小 Case ，当然也可以控制它切换其他画风的，比如美漫、韩漫、日漫等提示词：为“桃花源记”创作一幅连环画

信息图

得益于 Nano Banana Pro 的世界知识和文字控制能力，可以生成各种类型的信息图，这块是我觉得最令人惊艳的部分，它的想象空间太大了。

数据可视化

一张巨大、博物馆级别的白色画布的全景高分辨率视图，上面精心展示了九种不同、色彩鲜明的数据可视化图表：一个散点图、一个桑基图、一个条形图、一个折线图、一个地理热力图、一个网络图、一个沃罗诺伊图、一个矩阵热力图，以及一个雷达图。每种可视化图表都以清晰、锐利的线条完美呈现，用细黑边分隔，并在相应的图表下方用优雅、极简的无衬线字体，以中英文双语的形式标注了其类型（例如：“散点图 SCATTER PLOT”、“桑基图 SANKEY DIAGRAM”）。整体美学是干净的数据艺术、信息设计和抽象表现主义，使用高端哈苏H6D相机、广角镜头拍摄，在明亮、均匀的柔光箱影棚照明下，消除阴影并确保完美的色彩准确度。所有图表都聚焦清晰，景深较深。细节复杂，超高清，8k。

步骤拆解

画一张西红柿炒蛋的流程图，儿童手绘插画风格

结构化描述

极简主义信息图表设计，黑色背景上的信息架构可视化图，展示“好提示词的四大核心要素”。中心位置有白色粗体标题“好提示词的核心要素”。四个核心要素以白色简洁字体呈现，分别是“角色 (Role)”、“背景信息 (Context)”、“任务 (Task)”、“格式 (Format)”。四个要素呈正方形布局，每个要素下方有简短的白色小字说明（角色：AI扮演什么角色？背景信息：需要知道哪些上下文？任务：想让AI做什么？格式：怎样呈现答案？）。四个要素之间用白色细线连接，形成完整的信息架构图。整体设计极简现代，具有专业感和清晰的视觉层次。

论文 & 研究

提示词：{upload your paper file here} take papers or really long articles and turn them into a detailed whiteboard photo.

05. 应用实践（Build with Nano Banana Pro）

谷歌之前的一个项目我印象很深刻，InfiniteWonderland，将 AI 生图的技术融入到阅读过程中，用户可以 选中《爱丽丝梦游仙境》中的任意文段，实时生成对应的配图，并支持五种不同的艺术家风格。

沿着这个思路，我做了两组尝试，看下面👇西游画本那肯定先要满足小时候的欲望了，以前看名著总是干巴巴的，配图极少，现在可以让 AI 来担任插画师。根据西游记原著，先把文本压缩为适合分镜的脚本，每一章都有 5～6 个分镜，然后根据脚本调用 nano-banana-pro 生成类似影神图风格的插画，不满意用户还可以手动重新生成，并支持语音朗读。

阅读器做了一个不太一样的阅读器，很适合在我在起点读小说时，去还原小说中描绘的画面。用户可以录入任意长段文本，程序会自动分段。选中分段后，生成对应的图片，支持三种不同的艺术风格。最爽的就是可以让它一键生成所有分段的配图，然后从上到下，通过方向键快速切换，瞬间就从干巴巴的文字变成了一幕幕精彩的剧场照。

06. Meta-Prompt

这版的提示词，经过多轮的调整和优化，带有 CoT 和指令，适用于大部分制图场景，已经相对而言比较完整，我在生图之前也习惯让 Gemini 替我先优化一下，补充一些画面细节。

Gem 链接在这里：https://gemini.google.com/gem/1dX2kttaOfgUXbad6ztKimU6-3p1F8g?usp=sharing

图像参考或复刻其实除了 Meta-Prompt 之外，还有一种非常方便的方式，来实现你想要的效果，就是图像参考或复刻。你可以搜一张你觉得很棒的图，喂给 Gemini 让它来尝试提炼要点，来满足自己复刻图片的诉求。也可以直接 将这张图作为参考图，然后跟 AI 说请参考这张图来实现我的需求：balabala。这两种方式都能获得不错的效果。

07. 研究 & 思考（Research With Nano Banana Pro）

Nano Banana Pro 幕后机制推测

Built on Gemini 3 Pro, Nano Banana Pro uses Gemini’s state-of-the-art reasoning and real-world knowledge to visualize information better than ever before.[1]
[1]: https://blog.google/technology/ai/nano-banana-pro/

除了 Scaling Law 和一些常规的训练优化措施之外，谷歌还可能做了哪些事情？这里放一下，对 Nano Banana Pro 幕后机制的一些思考 🤔

观察 & 猜测

通过我对 Nano Banana Pro 的观察，我发现它的上下文一直能保持得很好，比如连续生成多张图片时，里面的人物都没有变样。

对此，进行相对合理的猜测，在多轮对话中，或者一次让它生成多张图片时，它是按照以下流程来实现任务思考和处理的：

拆解任务需求，生成 Plan
通过 LLM 判断是否需要调用模块，比如 主体提取、字体编码、布局生成 等
识别并提取主体，塞入到 context block 里
执行生成

又比如让它生成一个 APP 的设计稿，通过对思考过程的观察，它也会先实现草图，然后开始出各个视图的设计稿，然后将这些作为参考图片，整合成最终的设计稿。

复合型 AIGC 系统？

Nano Banana Pro 不再仅仅是一个简单的 “文生图模型”，而是一个复合型的生成式 AI 系统（Generative AI System）。NanaBanana Pro 极有可能引入了工作流（Agentic Workflow）和多模态上下文学习（Multimodal In-Context Learning）机制。

和 U-Net 的卷积方案不同，这种方案先让语言模型LLM（比如 Gemini 3）来处理 Prompt，经过多次的任务执行和 Embedding，将最终的数据塞给生图模型来生成图片。

原生全模态模型？

Nano Banana Pro 也许并非传统意义上的文生图扩散模型，而是原生全模态大模型 Gemini 3 的特定能力投射。

基于这种 “同源异构”的特性，可以让 Nano Banana Pro 在理解复杂指令、处理多轮对话以及调用世界知识方面，显著优于那些基于扩散模型（Diffusion Models）的组合式架构。

Nano Banana Pro也许引入了类似于 LLM 中的 Chain-of-Thought (CoT) 机制，也就是 "Thinking Mode" 。

思维签名 (Thought Signature)：当用户输入提示词后，模型并不会立即生成图像像素。它首先生成一段不可见的“思维过程” 或 “思维签名”。
逻辑规划 (Planning)：在这个阶段，模型会进行自我对话，规划画面的布局。例如，对于提示词“一个穿着 1920 年代服装的宇航员在火星上喝咖啡”，模型会推理：主体：宇航员。风格约束： 1920 年代时尚（需要查询当时的服装特征：西装、礼帽、怀表）。环境约束：火星（红色土壤、低重力、橙色天空）。动作逻辑：喝咖啡（宇航员头盔是否打开？如果在火星表面，头盔不能打开，除非是科幻设定的地球化环境。模型需做出决策）。
中间产物（Mid）：生成即时的“思维图像”（Thought Images），这是内部的低保真草图，用于验证构图。
最终生成 (Execution)：只有在思维链逻辑闭环后，模型才开始调用高分辨率的生成模块进行像素渲染。

08. 几点启发

让 AI 充分发挥能力

从系统的角度，将各种能力进行组合，可以创造全新的产品体验
在创新要求较高的场景里，需要充分让 AI 发挥能力，比如动态 Workflow 生成和调度上下文（Context）非常非常重要，它是 Agents 之间的胶水，是 Agent 之间共享的记忆，也是 Agent 发挥能力的土壤。
提示词工程以及上下文工程，将影响产品的能力下限。

弥补遗憾

利用 NanoBananaPro 的超强能力，你可以做到很多事情。

比如拍照拍的不好，让它给你修图，焦距、画面、质感都可以做到顶级，还可以给到多角度、多风格的影响。
比如合照时有个人不在，要一张对方的照片，就能自然地加到合照里。
除了摄影之外，也可以给自己喜欢的老漫画上个色，并且推衍剧情；根据户型图生成对应的软装方案等等。
甚至，数字生命和陪伴。弥补你的遗憾，它能做到，这很棒，也很危险。

学习效率的百倍提升

Take the complex and make it clear. -- Deepmind

超难的算法？看不懂的论文？厚厚的教科书？复杂的工程？

交给 Gemini 和 Nano Banana Pro，从原理剖析到信息图绘制，也许还可以有 Veo 生成 3D 动画视频，一定能给你拆解地明明白白。

复杂的学科和知识，此刻仿佛被 X 光照过，剖析地干干净净。

~~我要是上大学有这东西，什么数学分析、复变函数、深度神经网络，那不是轻轻松松拿捏。~~（陷入幻想中）虚幻和真实耳听为虚，眼见也不一定为实。

生产变革

生产工具决定生产力，生产力决定生产关系。

所有人类历程的变化，都可能是历史的一次重演。

内容生成走向工业化，大量 AI 生成的内容充斥内容平台。

原创会更珍惜，但不一定会更有价值。

当我们分不清什么是真的，什么是假的，我们该如何相信这个世界？

它像是一个女巫，有人觉得递出的是解药，有人则认为是慢性毒药。

AI 帮助了我们延展自己的想象力，也在逐渐“摧毁”，人类的想象力。