圖像生成AI新王誕生？一根香蕉如何改變世界

青檸與西柚 2025-08-31 發(fā)布于山東

展開全文

酷玩實(shí)驗(yàn)室原創(chuàng)作品

P圖這門學(xué)問，不存在了，AI這次是真的要干掉Photoshop。

前幾天，一個(gè)名叫Nano Banana的神秘新模型，出現(xiàn)在了國外平臺(tái)LMArena上，LMArena就是業(yè)內(nèi)有名的AI大模型競技場，用戶在這里輸入提示詞，會(huì)有數(shù)個(gè)不同的模型生成結(jié)果，讓你評(píng)價(jià)誰好、誰垃圾，評(píng)完之后LMArena才會(huì)告訴你，答案分別屬于哪個(gè)大模型。

結(jié)果是，短短幾天之內(nèi)，用戶們就在盲選評(píng)價(jià)中，給Nano Banana打出了1360的高分，位列圖像編輯AI的第一名，力壓GPT、千問等知名大模型，用戶們的心情，大概是這樣的。

所以，Nano Banana到底有多猛？我們普通人又能拿它做什么？

01 Nano Banana 一致性的王

用這個(gè)大模型執(zhí)行圖像編輯任務(wù)時(shí)，用戶最直觀的感受就是，一致性無敵。

AI的一個(gè)常見任務(wù)，以圖生圖，給大模型們喂同樣的參考，輸入一樣的提示詞，讓它們更換圖中的背景，或者人物動(dòng)作、服裝。目前常用的幾個(gè)老牌選手，在生成時(shí)都有很大的問題，新圖明顯無法與參考圖中的人物保持一致，要么變了臉型，要么變了膚色或者胖瘦，姿勢和動(dòng)作也有細(xì)微變化。因?yàn)檫@種一致性問題，你很難做到控制變量，想變動(dòng)一點(diǎn)，其余的部分全變了，根本沒法用。

就比方說，用自然語言描述，要求AI給下面這張圖替換背景，“換到室外的泳池邊，整體構(gòu)圖和人物姿勢動(dòng)作形象都保持不變，圖片的風(fēng)格維持現(xiàn)狀?！?/span>

GPT生成的結(jié)果是這樣的，照片的風(fēng)格大變，人物樣貌有很大變化，手里夾的煙也消失了，甚至還多長了根手指，基本上可以判定為一眼AI。

這個(gè)則是豆包的生成結(jié)果，看得出來，它在努力保持人物的一致性，盡量做到PS摳圖的效果，但豆包生成的背景有點(diǎn)太糊了，人物像站在一面油畫前。

再看我們的主角Nano Banana，不僅把人物原樣照搬了下來，細(xì)節(jié)無一丟失，背景的色彩和清晰度也比較合適，可以說是非常接近老師傅手摳的結(jié)果了，而且它非常聰明地添加了，連原圖都沒有的煙霧效果，顯然Nano Banana是覺得，四個(gè)煙民站在這，空氣不可能清新，煙霧繚繞才合理。

一個(gè)實(shí)戰(zhàn)例子可能說明不了什么，咱們再來看幾個(gè)。這是一位國外網(wǎng)友用Nano Banana編輯的照片，他給出的指令是，“把眼鏡替換成黑色太陽鏡，然后拿一杯健康飲料”，Nano Banana給出了右邊的圖，不僅把臉型、表情、膚色都保留了下來，墻壁上小鼓包也還在，它還認(rèn)真還原了墨鏡的半透明效果，以及鏡片上的反光，非常自然。

作為對比，完全一樣的參考和Prompt輸入GPT，結(jié)果是這樣的，莫名其妙給人物加了一層柔光濾鏡，還瘋狂磨皮，有種美顏拉到最大的感覺，而且人像的邊緣有條顯眼的黑線，像是摳出來放到墻壁前的樣子。

豆包的結(jié)果好一些，人物是還原了，但眼鏡有點(diǎn)假，很明顯沒有跟原來的場景、風(fēng)格保持一致，融合度差點(diǎn)意思。

換句話說，Nano Banana 就可以做到，只在你想改的地方精準(zhǔn)下刀，新生成的圖像中，人物還能保持原來的相貌體型，其它物品保持不變，并且整體畫質(zhì)和風(fēng)格跟原圖同步，就好像找了PS高手幫你。

這么復(fù)雜的操作，用戶卻只需要用簡單的自然語言下令，等于學(xué)會(huì)了打字P圖，想給照片換個(gè)背景，抹掉什么閑雜人等，或者把某個(gè)人加進(jìn)來，就一句話的事情而已，完全用不著費(fèi)力學(xué)什么蒙版、套索。

于是，一大群人跑去LMArena上瘋玩Nano Banana，開啟了用嘴P圖的生涯，這位網(wǎng)友要求Nano Banana，把自己以前在莫斯科拍的新年紀(jì)念照，背景換成紐約，年份換成2025，成品效果幾乎完美。

也有人叫Nano Banana給自己換裝，從沙灘褲換到西裝，生成結(jié)果很還原現(xiàn)實(shí)中的體型，衣服上的光影也得到了保留，還生成了很多褶皺，足以以假亂真。

給照片換頭也是毫無壓力，尺寸和神情恰到好處，跟整體風(fēng)格融得也比較好。

用Nano Banana，你甚至可以看看你家貓咪脫光衣服之后的樣子。

接觸AI比較多的朋友一定知道，生成一致性算是老大難問題了，模型看參考圖跟我們?nèi)瞬灰粯?，它要同時(shí)關(guān)注角色、背景、風(fēng)格等多個(gè)元素，很容易在這個(gè)過程中遺失關(guān)鍵特征，它也難以區(qū)分角色的身份特征和圖像的風(fēng)格，再加上AI每次生成都是獨(dú)立的，每次都存在隨機(jī)，很難做到一致。對于高手來說，可以通過輸入極其復(fù)雜的Prompt，來部分解決一致性問題，但這種魔法咒語的學(xué)習(xí)難度，可能并不比學(xué)習(xí)PS要低，對普通人來說還是有門檻的。

如果同樣輸入普通人能掌握的大白話，Nano Banana的表現(xiàn)明顯比其它主流大模型高了幾個(gè)段位，顯然是在這些技術(shù)難題上取得了突破，至于具體采用什么邏輯，就不清楚了。

現(xiàn)在已經(jīng)知道的是，Nano Banana的身世。剛開始的時(shí)候Nano Banana神秘兮兮的，也不知道是誰家搞出來的，后面用戶反響不錯(cuò)，谷歌就跳出來認(rèn)領(lǐng)了，承認(rèn)了它是測試中的Gemini-2.5的繪圖大模型。

現(xiàn)在谷歌已經(jīng)開始全面推送，可以直接在官網(wǎng)上使用，不必再跑到LMArena上瘋狂搖號(hào)，這進(jìn)一步推高了Nano Banana的熱度。

02 有常識(shí)的AI

隨著更多用戶能夠穩(wěn)定地調(diào)用Nano Banana，大家很快發(fā)現(xiàn)，這玩意的恐怖之處不僅僅在一致性，它在保持一致的同時(shí)還有強(qiáng)大的想象力。

比如說，變表情，你讓AI改變某張照片中的人物的表情，大多數(shù)AI沒有辦法正確腦補(bǔ)這張臉的變化，會(huì)直接把整個(gè)臉都扭曲，Nano Banana就可以分析你的面部特征，生成更加自然的結(jié)果，跟真人照片放在一起，都難以分辨到底誰才是AI。

來做個(gè)測試，請看下圖中的王の笑容，找出哪個(gè)是Nano Banana修改后的假王。

公布答案，1號(hào)和4號(hào)為編輯表情后的結(jié)果，有多少朋友猜對？

更牛的是，Nano Banana還有憑借合理想象多角度生成圖像的能力，你給它喂一張正臉圖，要求它把人物的臉轉(zhuǎn)過來，Nano Banana可以在沒有其它參考的情況下，憑借輪廓合理想象側(cè)臉的模樣，并且看上去符合常識(shí)。

當(dāng)然，也可以反過來，用側(cè)臉去生成正臉，也是絲毫沒有突兀感。

Nano Banana還能根據(jù)固定角度的參考，想象變換機(jī)位之后的新角度。比如給它一張平視圖，要求它以此為基礎(chǔ)生成俯視圖、仰視圖，Nano Banana不僅可以識(shí)別人物和物體特征，用靠譜的空間想象力，腦補(bǔ)出俯視的樣子，對于一些平視圖中沒有完全露出的物件，它也可以用常識(shí)進(jìn)行補(bǔ)全，比如我們前面說的聚眾抽煙圖，參考圖里只露出一盆花，它知道在俯視想象中給花下面補(bǔ)個(gè)茶幾，以讓花盆達(dá)到正確的高度，它甚至還分析了人物在干嘛，在添加物件的時(shí)候擱了幾個(gè)煙灰缸。

非要挑的話，在不起眼的角落里，Nano Banana還是犯了個(gè)經(jīng)典的邊界不清錯(cuò)誤，證明自己依然是個(gè)AI，不然大家都要害怕智械覺醒了。

按照谷歌的說法，Nano Banana在這方面強(qiáng)，是因?yàn)?/span>它并非一個(gè)單純的圖像編輯模型，而是融合了Gemini 的世界知識(shí)，所以它有常識(shí)和強(qiáng)大的邏輯推理能力，能夠理解文本、圖像所代表的含義，也懂得現(xiàn)實(shí)的狀況和規(guī)則，得到的結(jié)果自然更符合用戶的預(yù)期。

這種基于現(xiàn)實(shí)邏輯的想象，是傳統(tǒng)修圖軟件無論如何都做不到的，也是很多AI的弱點(diǎn)。

再加上超強(qiáng)的一致性，最終得到的結(jié)果就是，開局一張圖，之后隨心所欲輸出自己想要的畫面，想保留什么元素，想改變什么，全由你來決定。

用老外的話來說，Google just killed Photoshop.

03 全民創(chuàng)作，啟動(dòng)！

當(dāng)網(wǎng)友們見識(shí)到了Nano Banana的實(shí)力，就開始瘋玩了。

首先整活黨得到了極大的加強(qiáng)，各種以假亂真的Nano Banana 惡搞圖滿天飛?，F(xiàn)在X上面人均傍大腕，跟將軍親切擁抱的，跟登子握手合影的，還有夜訪普京的，個(gè)個(gè)背景過硬。

作為愛恨兩極分化的總統(tǒng)，川普自然也逃不過惡搞的大手，已經(jīng)被Nano Banana送去主演《芭比》了，你別說，粉粉嫩嫩的還挺合適他。

各個(gè)科技巨頭的頭頭們，也集體被搞抽象，讓奧特曼去表演體操，讓馬斯克戴金鏈子、穿一身西海岸該溜子裝，讓桑德爾這位印裔CEO，把谷歌辦公室搬到破舊的印度農(nóng)村房。

明星們現(xiàn)在應(yīng)該也在瑟瑟發(fā)抖，畢竟霉霉剛發(fā)的訂婚照，已經(jīng)被Nano Banana給P成了瑟曦同款短發(fā)。

跟巴薩和可樂斗了半輩子的C羅，也在Nano Banana和網(wǎng)友的幫助下，實(shí)現(xiàn)了世紀(jì)大和解。

還有好奇心爆表的車手，嘗試?yán)肗ano Banana脫掉HKdoll姐姐的口罩，看完生成結(jié)果之后，應(yīng)該是心滿意足地去拿衛(wèi)生紙了。

好玩是一方面，那些想把AI當(dāng)成生產(chǎn)力的人，也發(fā)現(xiàn)了新大陸。

Nano Banana可以把你提供的素材圖，按照要求跟人物搭配成圖，穿什么衣服，拿什么手機(jī)，坐什么汽車，擺什么姿勢，都隨你定，它熔煉素材還熔得特好，身材不走樣，比例不失真，并且能搞出高級(jí)感。

過去也有一些大模型推出類似的AI換裝、AI穿搭功能，但Nano Banana能夠使用的素材數(shù)量要多得多，在官方演示中就有13個(gè)不同的素材被安排進(jìn)去，X上還有用戶反饋，如果你在一張圖里放幾個(gè)素材，可以塞更多元素，他最高用了18個(gè)。

而且，對于一些語言難以仔細(xì)描述的動(dòng)作、姿勢，你也可以通過上傳示意圖來跟Nano Banana解釋，畫成火柴人那么抽象，它都照樣能理解。

這不僅省去了修圖的功夫，還省掉了找道具拍攝的成本，對于做電商、搞廣告設(shè)計(jì)來說堪稱神器，花小錢買點(diǎn)Token，十幾秒就能做完一天的工作。

另一個(gè)用法是突破次元壁，你可以把各種手稿、動(dòng)漫乃至真人喂給Nano Banana，讓它幫你做成手辦的樣子。

既有栩栩如生的動(dòng)態(tài)和表情，又還原了塑料和漆面特殊的光澤、質(zhì)感，確實(shí)看起來像手辦。

這個(gè)用法已經(jīng)成了小紅書的流量密碼，會(huì)引來一堆人在評(píng)論區(qū)求幫忙做同款，輕松起號(hào)。

對于搞室內(nèi)設(shè)計(jì)或者想裝修的人，還有賣家具的人，Nano Banana也是絕對的神器，谷歌基于這個(gè)大模型定制了一個(gè)官方小工具，讓Nano Banana拿毛坯照片生成裝修效果圖，拿空房生成放滿家具的樣子。

你甚至都不用描述，小工具允許你直接把家具素材圖，拖到指定位置，就可以生成對應(yīng)的效果，省下了想提示詞的功夫。

不僅如此，高手們還搗鼓出了無數(shù)的邪修玩法，比如說你可以給一張背景虛化掉的照片中，隨便畫一圈，把圈里面模糊的人或者物提取出來，要求Nano Banana進(jìn)行合理想象，生成這個(gè)人物的高清大圖，感覺刑警隊(duì)會(huì)很愛用。

你還可以利用Nano Banana的世界知識(shí)，把衛(wèi)星圖轉(zhuǎn)換為風(fēng)景圖，用戶只需要畫個(gè)箭頭號(hào)，告訴它這是攝影師的視角，Nano Banana就會(huì)開始推理這是哪，你在什么位置，然后生成這里所能看到的畫面，一些平時(shí)需要付費(fèi)購買的城市風(fēng)景照，就可以免費(fèi)獲取了。再搭配上其它的圖生視頻AI模型，讓畫面動(dòng)起來，那些高價(jià)的空鏡素材，沒花一分錢就到手了。

04 真假難辨

可以說，Nano Banana的誕生，代表著圖像編輯AI達(dá)到了一個(gè)新的高度，已經(jīng)可以有效解決人類“手跟不上腦”的問題，你想象，然后說出來，就可以獲得圖像。

對于普通人來說，修圖做圖，不再是一門高深的技術(shù)，人人都可以低成本展示自己的靈感，可能在今后的時(shí)代，創(chuàng)意才是最貴的。

當(dāng)然，硬幣也有另外一面，但AI生成的水平，逐漸逼近“以假亂真”，它被用來作惡的能力也越強(qiáng)。

在Nano Banana尚未出現(xiàn)的時(shí)候，各種AI圖就已經(jīng)能夠騙到識(shí)別能力不強(qiáng)的人，騙過一些檢測系統(tǒng)。有人拿AI做出物品損壞的樣子騙商家賠款，天天薅羊毛，有人用AI生成門頭來掩蓋幽靈外賣店，假裝自己很正規(guī)。

更不要說，每天還有各種各樣的AI假新聞圖在網(wǎng)上到處飛，瘋狂制造謠言……

這種低水平的AI造假，目前我們都無法完全攔截，也不是所有人都能識(shí)破，當(dāng)Nano Banana等新一代AI普及，恐怕情況會(huì)變得更加嚴(yán)重。

搞傳銷的，再也犯不著去4S蹭瑪莎拉蒂，或者砸錢請奧巴馬來合影，他們坐在電腦前就可以隨便偽造出跟大佬握手的圖，騙你入局。賣假貨的，也犯不著請什么演員來做違背祖宗的決定，隨便AI生成一下，便可以讓明星大腕一臉真誠地手持自己的產(chǎn)品，免費(fèi)做代言。

又或者說，詐騙犯只要搞到一張你的照片，就能制造出無數(shù)你挨打被虐的圖，讓你爹媽以為你被綁到緬北去了，然后掏空家底給你交贖金。

幾十年前，整個(gè)社會(huì)都是以 '眼見為實(shí)' 的認(rèn)知體系為基礎(chǔ)，照片就是鐵證，視頻就是定論，因?yàn)槟菚r(shí)候的人們知道，這些東西是難以修改和偽造的。PS的出現(xiàn)，第一次動(dòng)搖了這個(gè)認(rèn)知體系，因?yàn)閭卧斐杀咀兊锰?，稍微懂點(diǎn)技術(shù)的人都可以搞，但凡看到照片，我們腦子里都得冒出一句：“是原圖嗎？”

現(xiàn)如今，門檻更低、能力更強(qiáng)的圖片編輯AI，又準(zhǔn)備革掉PS的命，以后會(huì)發(fā)生什么呢？

大腦的想象力，是放飛了，但我們的眼睛，好像也不值得信任。

酷玩實(shí)驗(yàn)室整理編輯

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

电竞比分网-中国电竞赛事及体育赛事平台

圖像生成AI新王誕生？一根香蕉如何改變世界

圖像生成AI新王誕生？一根香蕉如何改變世界