电竞比分网-中国电竞赛事及体育赛事平台

分享

圖像生成AI新王誕生?一根香蕉如何改變世界

 青檸與西柚 2025-08-31 發(fā)布于山東
圖片
酷玩實(shí)驗(yàn)室原創(chuàng)作品

P圖這門學(xué)問,不存在了,AI這次是真的要干掉Photoshop。

前幾天,一個(gè)名叫Nano Banana的神秘新模型,出現(xiàn)在了國外平臺(tái)LMArena上,LMArena就是業(yè)內(nèi)有名的AI大模型競技場,用戶在這里輸入提示詞,會(huì)有數(shù)個(gè)不同的模型生成結(jié)果,讓你評(píng)價(jià)誰好、誰垃圾,評(píng)完之后LMArena才會(huì)告訴你,答案分別屬于哪個(gè)大模型。

圖片

結(jié)果是,短短幾天之內(nèi),用戶們就在盲選評(píng)價(jià)中,給Nano Banana打出了1360的高分,位列圖像編輯AI的第一名,力壓GPT、千問等知名大模型,用戶們的心情,大概是這樣的。

圖片

所以,Nano Banana到底有多猛?我們普通人又能拿它做什么?


01 Nano Banana 一致性的王

用這個(gè)大模型執(zhí)行圖像編輯任務(wù)時(shí),用戶最直觀的感受就是,一致性無敵。

AI的一個(gè)常見任務(wù),以圖生圖,給大模型們喂同樣的參考,輸入一樣的提示詞,讓它們更換圖中的背景,或者人物動(dòng)作、服裝。目前常用的幾個(gè)老牌選手,在生成時(shí)都有很大的問題,新圖明顯無法與參考圖中的人物保持一致,要么變了臉型,要么變了膚色或者胖瘦,姿勢和動(dòng)作也有細(xì)微變化。因?yàn)檫@種一致性問題,你很難做到控制變量,想變動(dòng)一點(diǎn),其余的部分全變了,根本沒法用。

就比方說,用自然語言描述,要求AI給下面這張圖替換背景,“換到室外的泳池邊,整體構(gòu)圖和人物姿勢動(dòng)作形象都保持不變,圖片的風(fēng)格維持現(xiàn)狀?!?/span>

圖片

GPT生成的結(jié)果是這樣的,照片的風(fēng)格大變,人物樣貌有很大變化,手里夾的煙也消失了,甚至還多長了根手指,基本上可以判定為一眼AI。

圖片

這個(gè)則是豆包的生成結(jié)果,看得出來,它在努力保持人物的一致性,盡量做到PS摳圖的效果,但豆包生成的背景有點(diǎn)太糊了,人物像站在一面油畫前。

圖片

再看我們的主角Nano Banana,不僅把人物原樣照搬了下來,細(xì)節(jié)無一丟失,背景的色彩和清晰度也比較合適,可以說是非常接近老師傅手摳的結(jié)果了,而且它非常聰明地添加了,連原圖都沒有的煙霧效果顯然Nano Banana是覺得,四個(gè)煙民站在這,空氣不可能清新,煙霧繚繞才合理。

圖片

一個(gè)實(shí)戰(zhàn)例子可能說明不了什么,咱們再來看幾個(gè)。這是一位國外網(wǎng)友用Nano Banana編輯的照片,他給出的指令是,“把眼鏡替換成黑色太陽鏡,然后拿一杯健康飲料”,Nano Banana給出了右邊的圖,不僅把臉型、表情、膚色都保留了下來,墻壁上小鼓包也還在,它還認(rèn)真還原了墨鏡的半透明效果,以及鏡片上的反光,非常自然。

圖片

作為對比,完全一樣的參考和Prompt輸入GPT,結(jié)果是這樣的,莫名其妙給人物加了一層柔光濾鏡 ,還瘋狂磨皮,有種美顏拉到最大的感覺,而且人像的邊緣有條顯眼的黑線,像是摳出來放到墻壁前的樣子。

圖片

豆包的結(jié)果好一些,人物是還原了,但眼鏡有點(diǎn)假,很明顯沒有跟原來的場景、風(fēng)格保持一致,融合度差點(diǎn)意思。

圖片

換句話說,Nano Banana 就可以做到,只在你想改的地方精準(zhǔn)下刀,新生成的圖像中,人物還能保持原來的相貌體型,其它物品保持不變,并且整體畫質(zhì)和風(fēng)格跟原圖同步,就好像找了PS高手幫你。

這么復(fù)雜的操作,用戶卻只需要用簡單的自然語言下令,等于學(xué)會(huì)了打字P圖,想給照片換個(gè)背景,抹掉什么閑雜人等,或者把某個(gè)人加進(jìn)來,就一句話的事情而已,完全用不著費(fèi)力學(xué)什么蒙版、套索。

于是,一大群人跑去LMArena上瘋玩Nano Banana,開啟了用嘴P圖的生涯,這位網(wǎng)友要求Nano Banana,把自己以前在莫斯科拍的新年紀(jì)念照,背景換成紐約,年份換成2025,成品效果幾乎完美。

圖片

也有人叫Nano Banana給自己換裝,從沙灘褲換到西裝,生成結(jié)果很還原現(xiàn)實(shí)中的體型,衣服上的光影也得到了保留,還生成了很多褶皺,足以以假亂真。

圖片

給照片換頭也是毫無壓力,尺寸和神情恰到好處,跟整體風(fēng)格融得也比較好。

圖片

用Nano Banana,你甚至可以看看你家貓咪脫光衣服之后的樣子。

圖片

接觸AI比較多的朋友一定知道,生成一致性算是老大難問題了模型看參考圖跟我們?nèi)瞬灰粯?,它要同時(shí)關(guān)注角色、背景、風(fēng)格等多個(gè)元素,很容易在這個(gè)過程中遺失關(guān)鍵特征,它也難以區(qū)分角色的身份特征和圖像的風(fēng)格,再加上AI每次生成都是獨(dú)立的,每次都存在隨機(jī),很難做到一致。對于高手來說,可以通過輸入極其復(fù)雜的Prompt,來部分解決一致性問題,但這種魔法咒語的學(xué)習(xí)難度,可能并不比學(xué)習(xí)PS要低,對普通人來說還是有門檻的。

如果同樣輸入普通人能掌握的大白話,Nano Banana的表現(xiàn)明顯比其它主流大模型高了幾個(gè)段位,顯然是在這些技術(shù)難題上取得了突破,至于具體采用什么邏輯,就不清楚了。

現(xiàn)在已經(jīng)知道的是,Nano Banana的身世。剛開始的時(shí)候Nano Banana神秘兮兮的,也不知道是誰家搞出來的,后面用戶反響不錯(cuò),谷歌就跳出來認(rèn)領(lǐng)了,承認(rèn)了它是測試中的Gemini-2.5的繪圖大模型。

圖片

現(xiàn)在谷歌已經(jīng)開始全面推送,可以直接在官網(wǎng)上使用,不必再跑到LMArena上瘋狂搖號(hào),這進(jìn)一步推高了Nano Banana的熱度。


 02 有常識(shí)的AI

隨著更多用戶能夠穩(wěn)定地調(diào)用Nano Banana,大家很快發(fā)現(xiàn),這玩意的恐怖之處不僅僅在一致性,它在保持一致的同時(shí)還有強(qiáng)大的想象力。

比如說,變表情,你讓AI改變某張照片中的人物的表情,大多數(shù)AI沒有辦法正確腦補(bǔ)這張臉的變化,會(huì)直接把整個(gè)臉都扭曲,Nano Banana就可以分析你的面部特征,生成更加自然的結(jié)果,跟真人照片放在一起,都難以分辨到底誰才是AI。

來做個(gè)測試,請看下圖中的王の笑容,找出哪個(gè)是Nano Banana修改后的假王。

圖片

公布答案,1號(hào)和4號(hào)為編輯表情后的結(jié)果,有多少朋友猜對?

更牛的是,Nano Banana還有憑借合理想象多角度生成圖像的能力,你給它喂一張正臉圖,要求它把人物的臉轉(zhuǎn)過來,Nano Banana可以在沒有其它參考的情況下,憑借輪廓合理想象側(cè)臉的模樣,并且看上去符合常識(shí)。

圖片

當(dāng)然,也可以反過來,用側(cè)臉去生成正臉,也是絲毫沒有突兀感。


圖片

Nano Banana還能根據(jù)固定角度的參考,想象變換機(jī)位之后的新角度。比如給它一張平視圖,要求它以此為基礎(chǔ)生成俯視圖、仰視圖,Nano Banana不僅可以識(shí)別人物和物體特征,用靠譜的空間想象力,腦補(bǔ)出俯視的樣子,對于一些平視圖中沒有完全露出的物件,它也可以用常識(shí)進(jìn)行補(bǔ)全,比如我們前面說的聚眾抽煙圖,參考圖里只露出一盆花,它知道在俯視想象中給花下面補(bǔ)個(gè)茶幾,以讓花盆達(dá)到正確的高度,它甚至還分析了人物在干嘛,在添加物件的時(shí)候擱了幾個(gè)煙灰缸。

圖片
圖片

非要挑的話,在不起眼的角落里,Nano Banana還是犯了個(gè)經(jīng)典的邊界不清錯(cuò)誤,證明自己依然是個(gè)AI,不然大家都要害怕智械覺醒了。

圖片

按照谷歌的說法,Nano Banana在這方面強(qiáng),是因?yàn)?/span>它并非一個(gè)單純的圖像編輯模型,而是融合了Gemini 的世界知識(shí),所以它有常識(shí)和強(qiáng)大的邏輯推理能力,能夠理解文本、圖像所代表的含義, 也懂得現(xiàn)實(shí)的狀況和規(guī)則,得到的結(jié)果自然更符合用戶的預(yù)期。

這種基于現(xiàn)實(shí)邏輯的想象,是傳統(tǒng)修圖軟件無論如何都做不到的,也是很多AI的弱點(diǎn)。

再加上超強(qiáng)的一致性,最終得到的結(jié)果就是,開局一張圖,之后隨心所欲輸出自己想要的畫面,想保留什么元素,想改變什么,全由你來決定。

圖片

用老外的話來說,Google just killed Photoshop.


03  全民創(chuàng)作,啟動(dòng)!

當(dāng)網(wǎng)友們見識(shí)到了Nano Banana的實(shí)力,就開始瘋玩了。

首先整活黨得到了極大的加強(qiáng)各種以假亂真的Nano Banana 惡搞圖滿天飛?,F(xiàn)在X上面人均傍大腕,跟將軍親切擁抱的,跟登子握手合影的,還有夜訪普京的,個(gè)個(gè)背景過硬。

圖片

作為愛恨兩極分化的總統(tǒng),川普自然也逃不過惡搞的大手,已經(jīng)被Nano Banana送去主演《芭比》了,你別說,粉粉嫩嫩的還挺合適他。

圖片

各個(gè)科技巨頭的頭頭們,也集體被搞抽象,讓奧特曼去表演體操,讓馬斯克戴金鏈子、穿一身西海岸該溜子裝,讓桑德爾這位印裔CEO,把谷歌辦公室搬到破舊的印度農(nóng)村房。

圖片

明星們現(xiàn)在應(yīng)該也在瑟瑟發(fā)抖,畢竟霉霉剛發(fā)的訂婚照,已經(jīng)被Nano Banana給P成了瑟曦同款短發(fā)。

圖片

跟巴薩和可樂斗了半輩子的C羅,也在Nano Banana和網(wǎng)友的幫助下,實(shí)現(xiàn)了世紀(jì)大和解。

圖片

還有好奇心爆表的車手,嘗試?yán)肗ano Banana脫掉HKdoll姐姐的口罩,看完生成結(jié)果之后,應(yīng)該是心滿意足地去拿衛(wèi)生紙了。

圖片
圖片

好玩是一方面,那些想把AI當(dāng)成生產(chǎn)力的人,也發(fā)現(xiàn)了新大陸。

Nano Banana可以把你提供的素材圖,按照要求跟人物搭配成圖,穿什么衣服,拿什么手機(jī),坐什么汽車,擺什么姿勢,都隨你定,它熔煉素材還熔得特好,身材不走樣,比例不失真,并且能搞出高級(jí)感。

圖片

過去也有一些大模型推出類似的AI換裝、AI穿搭功能,但Nano Banana能夠使用的素材數(shù)量要多得多,在官方演示中就有13個(gè)不同的素材被安排進(jìn)去,X上還有用戶反饋,如果你在一張圖里放幾個(gè)素材,可以塞更多元素,他最高用了18個(gè)。

圖片

而且,對于一些語言難以仔細(xì)描述的動(dòng)作、姿勢,你也可以通過上傳示意圖來跟Nano Banana解釋,畫成火柴人那么抽象,它都照樣能理解。

圖片

這不僅省去了修圖的功夫,還省掉了找道具拍攝的成本,對于做電商、搞廣告設(shè)計(jì)來說堪稱神器,花小錢買點(diǎn)Token,十幾秒就能做完一天的工作。

另一個(gè)用法是突破次元壁,你可以把各種手稿、動(dòng)漫乃至真人喂給Nano Banana,讓它幫你做成手辦的樣子。

圖片

既有栩栩如生的動(dòng)態(tài)和表情,又還原了塑料和漆面特殊的光澤、質(zhì)感,確實(shí)看起來像手辦。

圖片

這個(gè)用法已經(jīng)成了小紅書的流量密碼,會(huì)引來一堆人在評(píng)論區(qū)求幫忙做同款,輕松起號(hào)。

圖片

對于搞室內(nèi)設(shè)計(jì)或者想裝修的人,還有賣家具的人,Nano Banana也是絕對的神器,谷歌基于這個(gè)大模型定制了一個(gè)官方小工具,讓Nano Banana拿毛坯照片生成裝修效果圖,拿空房生成放滿家具的樣子。

你甚至都不用描述,小工具允許你直接把家具素材圖,拖到指定位置,就可以生成對應(yīng)的效果,省下了想提示詞的功夫。

圖片

不僅如此,高手們還搗鼓出了無數(shù)的邪修玩法,比如說你可以給一張背景虛化掉的照片中,隨便畫一圈,把圈里面模糊的人或者物提取出來,要求Nano Banana進(jìn)行合理想象,生成這個(gè)人物的高清大圖,感覺刑警隊(duì)會(huì)很愛用。

圖片

你還可以利用Nano Banana的世界知識(shí),把衛(wèi)星圖轉(zhuǎn)換為風(fēng)景圖用戶只需要畫個(gè)箭頭號(hào),告訴它這是攝影師的視角,Nano Banana就會(huì)開始推理這是哪,你在什么位置,然后生成這里所能看到的畫面,一些平時(shí)需要付費(fèi)購買的城市風(fēng)景照,就可以免費(fèi)獲取了。再搭配上其它的圖生視頻AI模型,讓畫面動(dòng)起來,那些高價(jià)的空鏡素材,沒花一分錢就到手了。

圖片

 04 真假難辨

可以說,Nano Banana的誕生,代表著圖像編輯AI達(dá)到了一個(gè)新的高度,已經(jīng)可以有效解決人類“手跟不上腦”的問題,你想象,然后說出來,就可以獲得圖像。

對于普通人來說,修圖做圖,不再是一門高深的技術(shù),人人都可以低成本展示自己的靈感可能在今后的時(shí)代,創(chuàng)意才是最貴的。

當(dāng)然,硬幣也有另外一面,但AI生成的水平,逐漸逼近“以假亂真”,它被用來作惡的能力也越強(qiáng)。

在Nano Banana尚未出現(xiàn)的時(shí)候,各種AI圖就已經(jīng)能夠騙到識(shí)別能力不強(qiáng)的人,騙過一些檢測系統(tǒng)。有人拿AI做出物品損壞的樣子騙商家賠款,天天薅羊毛,有人用AI生成門頭來掩蓋幽靈外賣店,假裝自己很正規(guī)。

圖片

更不要說,每天還有各種各樣的AI假新聞圖在網(wǎng)上到處飛,瘋狂制造謠言……

圖片

這種低水平的AI造假,目前我們都無法完全攔截,也不是所有人都能識(shí)破,當(dāng)Nano Banana等新一代AI普及,恐怕情況會(huì)變得更加嚴(yán)重。

搞傳銷的,再也犯不著去4S蹭瑪莎拉蒂,或者砸錢請奧巴馬來合影,他們坐在電腦前就可以隨便偽造出跟大佬握手的圖,騙你入局。賣假貨的,也犯不著請什么演員來做違背祖宗的決定,隨便AI生成一下,便可以讓明星大腕一臉真誠地手持自己的產(chǎn)品,免費(fèi)做代言。

圖片

又或者說,詐騙犯只要搞到一張你的照片,就能制造出無數(shù)你挨打被虐的圖,讓你爹媽以為你被綁到緬北去了,然后掏空家底給你交贖金。

幾十年前,整個(gè)社會(huì)都是以 '眼見為實(shí)' 的認(rèn)知體系為基礎(chǔ),照片就是鐵證,視頻就是定論,因?yàn)槟菚r(shí)候的人們知道,這些東西是難以修改和偽造的。PS的出現(xiàn),第一次動(dòng)搖了這個(gè)認(rèn)知體系,因?yàn)閭卧斐杀咀兊锰?,稍微懂點(diǎn)技術(shù)的人都可以搞,但凡看到照片,我們腦子里都得冒出一句:“是原圖嗎?”

現(xiàn)如今,門檻更低、能力更強(qiáng)的圖片編輯AI,又準(zhǔn)備革掉PS的命,以后會(huì)發(fā)生什么呢?

大腦的想象力,是放飛了,但我們的眼睛,好像也不值得信任。



酷玩實(shí)驗(yàn)室整理編輯

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多