谷歌深夜突发Nano Banana 2,生图圈天塌了!Pro级4K大片,价格砍半
【导读】AI圈集体失眠!Nano Banana 2深夜炸场,登顶文生图榜首,以Flash级速度暴力直出Pro级4K超清画质。更离谱的是,成本直接砍半,全网首测玩疯。
一周一更,谷歌又在深夜扔出「深水炸弹」。
就在刚刚,最强生图模型Nano Banana 2横空出世,背靠全新Gemini 3.1 Flash Image。
它不仅生成速度飞快,多语言文字处理更强,还能实时联网,一次直出4K大片。

刚一发布,全网就被它的恐怖实力刷屏了。
一句话直接生成游戏UI界面;随手一张草图变成网页版UI;一次输出20张连环画,眼都不眨一下。
网友直呼:设计师完蛋了!




左右滑动查看
甚至,NB2写的汉字稳得一批,彻底告别了「鬼画符」。

各大评测,更是坐实了Nano Banana 2生图一哥的地位。
在Artificial Analysis的文生图基准测试中,它轻松拿下全球第一。
在图像编辑能力上则位列第三,仅次于GPT Image 1.5和Nano Banana Pro。



在Image Arena中,NB2文生图同样问鼎榜首,斩获1279 Elo得分,图像编辑实力仅次于GPT Image。


谷歌官方测评中,NB2(开启Thinking + 文本搜索 + 图像搜索后)在整体偏好、视觉质量和信息图表准确性三个维度上,不仅全面压制了GPT-Image 1.5、Grok Imagine Image Pro等一众竞品,甚至还超越了大哥Nano Banana Pro。

而且,它的输出价格只要0.0672美元/张,仅为Pro的一半。

快,但不只是快
话不多说,下面我们就来看看它都有哪些杀手级本领。
第一个是世界知识。
Nano Banana 2全面接入了Gemini的知识库和实时网络搜索。
你让它画一座真实存在的建筑,它会先上网搜一搜视觉参考资料,搞清楚这地方到底长什么样,然后再按照你指定的风格渲染。
这种理解力也让它能直接帮你做信息图表、把笔记变成示意图、生成数据可视化。
比如,让它生成水循环的科普信息图。
模型选择了正上方俯拍的鸟瞰视角,在干净的浅灰色纹理背景上,把水循环的每个步骤从左到右清晰铺开。
背景上还画了简约的黑色手绘箭头来引导视线,光线柔和均匀,几乎没有阴影干扰,整体既有教育感又不沉闷,是那种你真的可以直接拿去课堂用的水平。

描绘水循环的平铺俯拍信息图
再看这张云类型的对比图。
它采用了三联画的形式,把积云、层云和卷云分别放在三个画幅中,每种云都有极具戏剧感的天空作为背景,配上醒目的标签文字。
整体是高对比度的美漫风格,信息清晰,视觉冲击力也拉满了。

对比不同云类型的三联画信息图
这张则是让模型先搜索克洛·吕斯城堡(达·芬奇晚年居住的法国城堡)的真实照片作为参考,然后用色彩明艳的综合立体主义风格重新演绎。
模型不仅准确还原了建筑的基本结构特征,还把立体主义那种多视角拼贴、几何化解构的精髓融了进去,而且严格遵守了「无文字」的要求。
这就是「世界知识」带来的差距——它知道这座城堡长什么样,而不是凭空捏造。

综合立体主义风格的克洛·吕斯城堡
更厉害的是,谷歌还专门做了一个叫「Window Seat」(靠窗座位)的应用来秀这个能力。
具体来说,他们让Nano Banana 2调用知识库和网络图像搜索,再结合世界各地的真实场景和实时天气数据,生成逼真的飞机窗外风景。
相当于给你来了一场足不出户的环球旅行,而且每一帧窗外的景色都基于真实的地理和气象信息,不是随便糊弄的。
第二个是文本渲染和翻译。
AI图像生成最大的老毛病之一就是「写字像鬼画符」,Nano Banana 2在这块下了狠功夫。
生成的文字准确清晰,做营销海报、贺卡完全够用。
看下面这组图。
第一张是一个充满自然气息的电影级特写,展现了一块由回收环保材料制成的精美指示牌,上面画着当地的鸟类和花卉,牌子下方用优雅的手写字体写着「原生野生动物:请保持距离观赏」。柔和的漫射光透过旁边蕨类植物的叶片洒下,背景是生机勃勃的绿色植物虚化效果。
第二张则是一句话就完成了场景本地化——把整个概念转换成印度场景,所有文字翻译成印地语,连植被、光线氛围都做了相应调整。这种「一键本地化」的能力,对做全球化内容的创作者来说太实用了。

本地化版本的「原生野生动物」指示牌
同样的,谷歌也为这个能力配了一个酷炫的演示——「Global Ad Localizer」。
这个全球广告本地化工具,能直接把广告素材翻译成不同语言版本,不仅渲染翻译后的文本,还会同步调整画面中的视觉元素来适配目标市场。
4K创意大片,画质更牛了
速度上去了,质量没掉,这才是Nano Banana 2真正让人兴奋的地方。
首先,是主体一致性的大幅提升。
具体来说就是,一个工作流里最多能保持5个角色的特征一致,以及14个对象的高保真度。
什么概念?看完下面这张图你就懂了。
14个风格各异的角色和道具一起出现在农场场景里愉快玩耍,整体氛围逗趣、搞怪、欢乐。
关键是每一个角色和道具都严格保持了原本的特征与形象,没有一个「变脸」或「串台」的。

农场里逗趣欢乐的角色和道具
再看这组更有叙事感的例子。
3个毛茸茸的小伙伴一起建树屋的故事,被拆成了6个章节。整个故事惊险刺激、情节跌宕起伏,以一个欢乐的时刻收尾。
最厉害的是,三个角色在6张图里的服装和外貌特征始终一致,但表情和视角每张都不一样,而且严格保证每张图里每个角色只出现一次。
这对需要做连续叙事的创作者来说简直是福音——终于不用每生成一张图就发现「主角换了张脸」。

正在建造树屋的毛茸茸小伙伴们
接下来这个名叫「Pet Passport」(宠物护照)的应用,堪称是「铲屎官的快乐制造机」。
在这里,你只需要上传一张宠物的照片,模型就能让你的毛孩子开启一场全球大冒险,打卡各大著名地标。
而且,它还内置了各种创意控制设置,让你能定制不同的风格和效果。
关键是无论去到哪个目的地,宠物的外观都能保持高度一致。
其次,指令遵循更精准了。
你脑子里想的那些微妙细节,现在模型能更好地捕捉到。复杂的描述不再被「自由发挥」成另一个东西。
第三,规格也拉满了。
从512px到4K,各种宽高比随你挑。
值得一提的是,512px是这次新增的分辨率层级,专门为低延迟和高负载场景优化。如果你的工作流需要快速迭代大量图像,这个档位能帮你把效率拉到极致。
宽高比方面,除了常见的比例之外,这次还新增了4:1、1:4、8:1和1:8这些极端比例,横幅广告、竖屏长图、信息流卡片都能原生适配,不用再靠后期裁切了。

对于开发者来说,还有一个对画质影响很大的新功能:可配置的思考级别(Thinking Level)。
你可以手动调整模型在生成图像之前的「思考深度」——默认是最低级别,追求速度。
切换到高级或动态模式后,模型会在渲染前对复杂的提示词进行更充分的推理,从而显著提升输出质量和指令遵循度。
最后,视觉质量本身也跃升了一个台阶。
光影更生动,纹理更丰富,细节更锐利。
比如下面这张雾气缭绕的山谷航拍图。
可以看到,从极高的俯视角度鸟瞰整个峡谷,前景是深色水域环绕着一片明亮的绿色田野,田野边缘点缀着散落的树木和灌木,一条狭窄蜿蜒的小路在右侧的绿丘中穿梭消失在远方。
山谷深处,浅蓝灰色的湖泊在植被茂密的巍峨群山之间延伸,山峰隐没在低垂的雾气中。
主色调从前景郁郁葱葱的翠绿过渡到远处更暗更柔和的色调,水面倒映着阴沉的天空,厚重的云层营造出柔和的漫射光效。整体散发着苏格兰高地般的粗犷之美,那种宁静、未被驯服的荒野气息扑面而来。

雾气缭绕的翠绿山谷全景航拍图
再看这张波普艺术时尚人像。
画面采用略低的仰视机位,一位年轻的深肤色人物穿着一套极其抢眼的西装。
面料上印着大胆的电光蓝漩涡波浪纹,其间穿插着巨大的亮粉色同心圆,相互重叠向外辐射。
宽大翻领的西装外套搭配钟形袖,内搭熨烫平整的黄色翻领衬衫,阔腿裤向地面戏剧性地散开。
亮黄色的心形墨镜、巨大的粉色圆形耳环、双手叉腰的桀骜姿势,在纯粹均匀的天蓝色背景前,整个画面就像一颗从波普艺术宇宙里炸出来的视觉炸弹。
而且,不管你要求什么样的比例,模型都能精准输出。

不同宽高比的高度风格化波普艺术时尚人像
全网首测
一帧画面「脑补」整个世界
自Nano Banana出世后,全世界人们已用它生成超十亿张图像。
谷歌DeepMind通过「氛围编码」手搓了一个demo,展示了NB对现实世界的强大理解力。
每一帧画面,NB2都只能看到前一张图,便能「脑补」出接下来的场景,连贯性简直强到离谱。
如今,一大批网友们纷纷晒出了Nano Banana 2的惊艳实测demo。
一句简单的提示,它便完美还原了1970年代的贝尔法斯特。


甚至,可以随意截取一张地图,让NB2生成一张卡通风格的全景图。


上传一本书的封面图,NB2即可直出一张书本中的展示水母的页面。


在文本渲染上,NB2再上一个全新的台阶,精准直出手稿、白板、海报等字体。




左右滑动查看
让NB2生成一张今日科技界新闻报纸,通过联网搜索,它直出新闻头版,不过在较小细节上有些问题。

另一个demo中,NB2在文本生成上同样展现出超强的统治力。

不仅如此,NB2生成的人物肖像更加真实,肉眼难以辨别真假。




左右滑动查看
一张对比图中,NB2在游戏人物刻画上更加精细、强大。

还有货柜展示、旋转楼梯等各种创意图,NB2全都表现不凡。





左右滑动查看
一张二次元动漫图,NB2可以一键复刻成GTA风格的图片。


NB2生成的一张3D微缩模型场景图,场景还原非常逼真。

NB2制作的信息图,细节非常丰富。



左右滑动查看
a16z合伙人Justine Moore测试中发现,NB2在信息图表、广告、动作镜头,甚至是卡通生成实力提升,且速度非常快。





左右滑动查看
在同一提示下,NB2可以更好遵循指令,生成效果要比GPT Image 1.5更加逼真。

以下是一些谷歌DeepMind官方的demo:






左右滑动查看



左右滑动查看
哪里能用上?
从世界知识到文本渲染,从14个主体保真到4K输出,能力盘点到这里,你可能已经跃跃欲试了。
好消息是,Nano Banana 2已经在谷歌的全线产品中铺开:
GeminiApp是最直接的入口。

Nano Banana 2将在Fast、Thinking和Pro模型中全面取代Nano Banana Pro,想要「顶配」的用户依然可以通过三点菜单选择「重新生成图像」来切换回Nano Banana Pro。

顺便提一句:图片生成的数量,每天是有限额的。
未订阅Google AI方案的用户,24小时内最多可生成100张图片;已订阅Google AI Plus、Pro或Ultra的用户,这个上限提升到1,000张。
对于大多数人来说足够用了,重度创作者可以考虑上个订阅。

谷歌的老本行——搜索,也安排上了。包括Google App、移动端和桌面端的AI Mode,以及智能镜头(Lens)。

开发者可以在AIStudio、GeminiAPI和Vertex AI中拿到预览版,Google Antigravity同样支持。
Flow的用户更是直接受益——Nano Banana 2成了默认模型,全员免积分使用。

GoogleAds里也集成了,创建广告系列时会自动提供智能建议。
结语
总结来看,谷歌这次打的什么算盘,其实一目了然:
用Nano Banana 2覆盖绝大多数用户的日常需求——快、准、好看、能搜能翻译;
把Nano Banana Pro留给那些对事实准确性有极高要求的专业场景。
不搞「要么Pro要么凑合」的二选一,而是让大多数人在不降速的前提下就能用上旗舰级的能力。

参考资料:
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/
https://blog.google/innovation-and-ai/technology/developers-tools/build-with-nano-banana-2/
https://x.com/GoogleDeepMind/status/2027051577899380991
https://x.com/GeminiApp/status/2027052041697464629
https://x.com/Google/status/2027051660392944035
https://x.com/jesselaunz/status/2027133199156142372?s=20
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社