|
八月中旬,一個(gè)低調(diào)的匿名模型悄然登陸海外AI測(cè)評(píng)平臺(tái)LMArena,沒(méi)有開(kāi)發(fā)者標(biāo)簽,也沒(méi)有品牌背書(shū),只有一個(gè)奇怪的代號(hào)“Nano Banana”。 雖然看起來(lái)老實(shí)巴交的,但Nano Banana卻在平臺(tái)的Battle模式中,展現(xiàn)出驚人的圖像一致性和自然語(yǔ)言編輯能力,輕松擊敗了眾多知名對(duì)手。網(wǎng)友們被其一騎絕塵的硬實(shí)力折服,自發(fā)為它打上“一致性之王”和“Photoshop殺手”等標(biāo)簽。 很快,Nano Banana的熱度從AI測(cè)評(píng)平臺(tái)蔓延至Reddit和Discord的技術(shù)論壇中,人們激烈討論模型本身的同時(shí),都試圖揭開(kāi)背后開(kāi)發(fā)者的神秘面紗。 正當(dāng)網(wǎng)友眾說(shuō)紛紜、如火如荼地解謎時(shí),谷歌AI Studio負(fù)責(zé)人Logon在X平臺(tái)發(fā)布了一個(gè)香蕉表情符號(hào),DeepMind產(chǎn)品經(jīng)理Naina也分享了一張香蕉藝術(shù)貼墻作品,加上谷歌以往就有將小型模型命名為Nano的歷史,答案變得呼之欲出。
當(dāng)Nano Banana的熱度攀升到峰值時(shí),谷歌終于在8月27日親自下場(chǎng)揭曉答案:Nano Banana正是其全新推出的圖像生成與編輯模型Gemini 2.5 Flash Image。 這場(chǎng)匿名模型引發(fā)的全球競(jìng)猜游戲,以谷歌官宣認(rèn)領(lǐng)而告終,但顛覆性的AI圖像狂潮,才剛剛開(kāi)始。
Nano Banana風(fēng)暴席卷互聯(lián)網(wǎng)Nano Banana正式上線一周后,谷歌實(shí)驗(yàn)室總裁Josh Woodward在X平臺(tái)透露,該模型全面推出后已累計(jì)完成超2億次圖像編輯,為Gemini吸引了超過(guò)1000萬(wàn)新用戶,其火爆程度甚至導(dǎo)致谷歌內(nèi)部“TPU嚴(yán)重過(guò)載,SRE警報(bào)不?!?/span>。 洶涌而來(lái)的熱情用戶,讓Nano Banana幾乎刷屏了全球各大社交媒體,人們爭(zhēng)先恐后參與體驗(yàn)、開(kāi)發(fā)新玩法、分享傳播的盛景,不禁令業(yè)內(nèi)人士發(fā)出“好像2023年ChatGPT時(shí)刻”的感嘆。 率先出圈的是Nano Banana多元素拼接的玩法,用戶可以上傳一張多元素排布圖,并給圖中每個(gè)物品打好標(biāo)簽,然后在指令中下達(dá)你想要生成的圖片概述即可。 比如一位叫Travis David的用戶在X發(fā)文稱,他將13個(gè)元素排布在一張圖里上傳到Nano Banana,輕松獲得了一張堪比VOGUE雜志的時(shí)尚大片。
Travis發(fā)文中表示,目前13個(gè)元素幾乎逼近Nano Banana的上限 多元素拼接功能在海量用戶的開(kāi)發(fā)下,很快出現(xiàn)各類邪修玩法。 最基礎(chǔ)的當(dāng)屬“實(shí)現(xiàn)OOTD自由”,以往需要費(fèi)勁心思扒明星同款穿搭的時(shí)尚博主們,如今只要把圖片上傳給Nano Banana,模型就能秒出穿搭清單,甚至二次元?jiǎng)勇巧拇┐钜材鼙晦D(zhuǎn)化為OOTD圖。
只需要上傳圖片,提示詞是“向我展示這個(gè)人物的ootd“即可 實(shí)測(cè)過(guò)程中,刺猬公社發(fā)現(xiàn),用戶甚至可以讓Nano Banana按照指令生成某種風(fēng)格的模特穿搭圖,再將生成的穿搭圖拆解為OOTD,全程僅耗時(shí)三分鐘。拆解OOTD過(guò)程中,它犯了一個(gè)小小的錯(cuò)誤,導(dǎo)致“靴子”單品出現(xiàn)兩次,提出修改指令時(shí),它也能“聽(tīng)懂人話”,只刪掉多余元素,沒(méi)有改動(dòng)圖片的其他部分。
AI生成的模特圖和OOTD,生成工具:Gemini2.5FlashImage(Nano Banana) 這個(gè)使用場(chǎng)景反過(guò)來(lái)同樣驚艷,對(duì)于日常真人出鏡拍攝OOTD的網(wǎng)紅模特來(lái)說(shuō),大可以省去畫(huà)全妝、找場(chǎng)地、擺pose等一系列為了出片所做的繁瑣工作,選一張狀態(tài)好的全身照、一張面部寫(xiě)真,再把穿搭單品圖片上傳,寫(xiě)真級(jí)別且無(wú)需修圖的素材轉(zhuǎn)瞬即得。
反向適用于OOTD試穿/圖源:互聯(lián)網(wǎng) 除了應(yīng)用于人與物之間的圖像生成,網(wǎng)友們還發(fā)現(xiàn)Nano Banana同樣適用于人與人關(guān)系的拼貼,這讓一眾追星黨們直呼萬(wàn)歲。 無(wú)論是遙不可及的好萊塢巨星,還是叱咤風(fēng)云的商界巨擎,就算是叫囂著自己是火星人的馬斯克,只要一聲令(prompt)下,都得千里奔赴來(lái)跟你拍一張合照。
讓天下沒(méi)有追不到的星/圖源:互聯(lián)網(wǎng) 而更進(jìn)階、也是近期最出圈的玩法,就是利用Nano Banana自制手辦。 簡(jiǎn)單的操作是上傳自家毛孩子、明星、二次元偶像的圖片,直接下令生成適用手辦制作的圖像,Nano Banana就會(huì)給出建模圖,甚至連手辦成品的細(xì)節(jié)圖乃至視頻也能獲取。
Nano Banana制作的手辦效果圖/圖源:互聯(lián)網(wǎng) 雖然還沒(méi)有用戶實(shí)測(cè)做出手辦的分享,但刺猬公社發(fā)現(xiàn)在萬(wàn)能的電商平臺(tái)上,已有商家開(kāi)始承接基于Nano Banana生成圖像的手辦制作。經(jīng)我們?cè)儐?wèn),該商家表示AI生成的手辦建模圖只能作為參考,實(shí)物做出來(lái)仍有差距。
左側(cè)是用戶上傳圖片,右側(cè)是商家根據(jù)Nano Banana生成圖片制作的手辦 很多人看到這里也許已瞠目結(jié)舌,但Nano Banana的全部實(shí)力遠(yuǎn)不止于此,比如它在地圖和建筑領(lǐng)域的空間推理圖像再生效果,就讓很多專業(yè)人士嘖嘖稱奇。 Nano Banana的地圖視覺(jué)推理能力之強(qiáng),可以在只上傳一張平面地圖的情況下,按照用戶打的標(biāo)簽和指令,平地起高樓般生成地圖對(duì)應(yīng)的實(shí)景。
一位用戶在地圖上標(biāo)注鳥(niǎo)巢,Nano Banana生成的實(shí)景/圖源:互聯(lián)網(wǎng) 相對(duì)應(yīng)地,如果用戶上傳一張城市建筑實(shí)景圖,Nano Banana又能清晰地給出圖中建筑的模型圖,或者按照用戶的要求標(biāo)注圖片建筑的相關(guān)信息。
在用戶指令要求下,Nano Banana可標(biāo)注建筑信息/圖源:互聯(lián)網(wǎng) 不僅如此,有網(wǎng)友實(shí)測(cè)這個(gè)功能同樣適用于數(shù)碼電子產(chǎn)品甚至智能汽車。
右邊是模型生成的內(nèi)部結(jié)構(gòu)圖/圖源:互聯(lián)網(wǎng) 隨著Nano Banana的走紅,層出不窮的創(chuàng)意玩法以日為單位被開(kāi)發(fā)出來(lái),利用模型做漫畫(huà)分鏡、給線圖上色,甚至直接生成有連貫劇情的電影畫(huà)面……. 上述一切的發(fā)生只用了短短兩周時(shí)間,其爆發(fā)速度甚至超越了當(dāng)年橫空出世的ChatGPT。
剝開(kāi)Nano Banana的香蕉皮剝開(kāi)這款A(yù)I產(chǎn)品的香蕉皮,就會(huì)發(fā)現(xiàn)Nano Banana能夠風(fēng)靡社交媒體,絕非僅是互聯(lián)網(wǎng)營(yíng)銷的勝利,更是一場(chǎng)技術(shù)范式的突破。 通俗來(lái)說(shuō),Nano Banana的技術(shù)突破可以理解為一整套針對(duì)“理解-生成-保持一致-快速迭代”閉環(huán)的工程化解決方案。 在理解上,早期的AI模型往往“偏科”嚴(yán)重,ChatGPT有很強(qiáng)的文字讀寫(xiě)能力,但不太懂圖像;而Midjourney和DALL-E 3為代表的模型,繪圖能力雖強(qiáng)但對(duì)文字的解讀卻很淺顯,經(jīng)常把指令的需求搞錯(cuò)。 原因在于這些傳統(tǒng)模型更像一個(gè)“翻譯官”,它將用戶的指令(prompt)轉(zhuǎn)化成一個(gè)中間的、抽象的數(shù)學(xué)表示,然后圖像生成模型再根據(jù)這個(gè)數(shù)學(xué)表示來(lái)繪圖。 這種單向管道式的工作原理,一方面不可避免地會(huì)在“中間表示”環(huán)節(jié)丟失大量原始指令的細(xì)微語(yǔ)義;另一方面,它很難原生地處理圖像輸入,當(dāng)用戶上傳一張圖片進(jìn)行編輯時(shí),模型需要先將圖片“反向翻譯”成中間表示,然后再進(jìn)一步繪圖。 而Nano Banana則像一個(gè)生于多語(yǔ)言環(huán)境的人,從訓(xùn)練之初就以文本、圖像、代碼等數(shù)據(jù)給模型學(xué)習(xí),因此它不再需要將一個(gè)模態(tài)“翻譯”成另一個(gè)模態(tài),而是天然就具有多模態(tài)語(yǔ)義對(duì)齊能力。正是這種在文字和圖像之間無(wú)縫絲滑的切換能力,使得用戶可以用日常對(duì)話的形式(模糊指令),無(wú)痛用嘴修圖。
Nano Banana團(tuán)隊(duì)/圖源:DeepMind Nano Banana的技術(shù)突破遠(yuǎn)不止于此,它在交錯(cuò)式生成與一致性保持上,也對(duì)傳統(tǒng)模型進(jìn)行了降維打擊。 顧名思義,交錯(cuò)式生成指模型能夠在一個(gè)連續(xù)的、多步驟的會(huì)話中,綜合理解所有上下文的能力,包括用戶之前下達(dá)的文字指令、上傳的圖片,以及模型自己生成的歷史結(jié)果;而一致性保持則指模型在多次生成和編輯中,保持特定主題(人物、物體、風(fēng)格)的核心能力,也是AI圖像模型長(zhǎng)期競(jìng)逐的“圣杯”。 用一個(gè)例子來(lái)呈現(xiàn)Nano Banana與傳統(tǒng)模型的差距,假設(shè)任務(wù)是為哈利波特創(chuàng)作一組不同場(chǎng)景下的插圖。 傳統(tǒng)模型就像是與多位獨(dú)立的插畫(huà)師合作,每次下達(dá)任務(wù)前,你都需要用文字重新描述哈利的全部特征“黑頭發(fā)、綠眼睛、圓眼鏡,額頭有閃電傷疤”,但令人抓狂的是,每個(gè)插畫(huà)師對(duì)文字的理解不盡相同,最終得到的每張圖片的哈利雖然都有上述特征,但看起來(lái)并不像同一個(gè)人。 不僅如此,獨(dú)立插畫(huà)師之間對(duì)彼此的風(fēng)格并不了解,如果你想讓插畫(huà)師B繪制“哈利在圖書(shū)館復(fù)習(xí)的場(chǎng)景,且與插畫(huà)師A負(fù)責(zé)的魁地奇球場(chǎng)分鏡風(fēng)格一致“,這幾乎是不可能完成的任務(wù),因?yàn)椴瀹?huà)師B既不知道魁地奇球場(chǎng)什么樣,也不知道插畫(huà)師A的風(fēng)格是什么。 而Nano Banana則像一位與你長(zhǎng)期合作的資深插畫(huà)師,你只需要在最開(kāi)始工作時(shí)告訴他哈利的特征,然后就能與老友對(duì)話般輕松和流暢的方式,讓這位記憶力絕佳的藝術(shù)家,聽(tīng)從你的調(diào)遣。 此外,Nano Banana還有著遠(yuǎn)超傳統(tǒng)模型的快速迭代能力。 任何好模型若無(wú)法快速響應(yīng)用戶,都會(huì)極大降低破圈與普及的潛力。在對(duì)用戶指令的響應(yīng)與快速迭代上,傳統(tǒng)模型就像用打字機(jī)寫(xiě)作,任何一個(gè)修改都可能需要重打整頁(yè)紙,而Nano Banana則進(jìn)化到了word寫(xiě)作,可以隨時(shí)刪除/修改局部,并立刻看到整篇文章(圖像)的新面貌。 Nano Banana能實(shí)現(xiàn)這一突破,不僅在于團(tuán)隊(duì)將模型壓縮優(yōu)化到實(shí)際產(chǎn)品中以秒級(jí)響應(yīng)(實(shí)測(cè)約13秒/張)返還高清圖像,上述多模態(tài)語(yǔ)義對(duì)齊、交錯(cuò)式生成和一致性保持等優(yōu)勢(shì)的加持,也是Nano Banana對(duì)用戶指令快速響應(yīng)迭代的重要原因。
顛覆、重塑與共生從問(wèn)世到席卷全球的兩周時(shí)間,Nano Banana的沖擊波同樣撼動(dòng)了資本市場(chǎng)與產(chǎn)業(yè)端的神經(jīng)。 谷歌發(fā)布Nano Banana當(dāng)日,創(chuàng)意軟件巨頭Adobe的股價(jià)就應(yīng)聲下跌約2%;比即時(shí)波動(dòng)更關(guān)鍵的是長(zhǎng)線走勢(shì),據(jù)Business Insider報(bào)道,Adobe的股價(jià)在過(guò)去一年累計(jì)下跌了35%,主要原因之一就是極速發(fā)展的人工智能帶來(lái)的顛覆性變革。 顛覆帶來(lái)的危機(jī)感隨著網(wǎng)友不斷解鎖Nano Banana的新玩法,傳導(dǎo)至更多職業(yè)領(lǐng)域。 一位剛?cè)胄械碾娚谭b模特告訴刺猬公社,原本中小商家聘請(qǐng)模特拍攝每天成本約1500元/人,上架時(shí)間至少以周為單位,而Nano Banana能將這一整套流程壓縮至分鐘級(jí),“如果AI生成圖像的細(xì)節(jié)繼續(xù)完善下去,未來(lái)肯定不需要這么多真人模特了”。
只要給到人物肖像圖、產(chǎn)品圖和簡(jiǎn)單指令,Nano Banana就能生成商品效果圖/圖源:互聯(lián)網(wǎng) 還有很多電商攝影師、后期修圖師,乃至視覺(jué)設(shè)計(jì)師,也紛紛在社媒平臺(tái)發(fā)帖調(diào)侃稱眼看著被AI搶了飯碗,準(zhǔn)備轉(zhuǎn)行去賣咖啡、送外賣、開(kāi)滴滴。 AI在產(chǎn)業(yè)端造成的轟動(dòng)不僅發(fā)生在圖像賽道,就在谷歌上線Nano Banana的前一天,翻譯界的最高學(xué)府蒙特雷國(guó)際研究學(xué)院宣布關(guān)閉,這家曾培養(yǎng)了大量外交官、翻譯專家和國(guó)際NGO組織負(fù)責(zé)人的頂級(jí)名校,自ChatGPT問(wèn)世以來(lái)生源大幅銳減,最終陷入財(cái)務(wù)困境。 但歷史上的技術(shù)革命告訴我們,創(chuàng)新從未單純地使某個(gè)行業(yè)消亡,舊生產(chǎn)關(guān)系被顛覆的同時(shí),必然伴隨產(chǎn)業(yè)重構(gòu)和新職業(yè)的誕生。 模特行業(yè)不會(huì)消亡,但將走向分化,“批量平替”需求勢(shì)必會(huì)被AI取代,但只有人類才能表現(xiàn)出的“故事性”與“情感細(xì)節(jié)”,始終是市場(chǎng)的稀缺資源。 與此同時(shí),商業(yè)攝影師、修圖師和設(shè)計(jì)師的角色也在被重塑,他們的核心價(jià)值不再局限于操控相機(jī)或軟件,而是延展到審美判斷、敘事構(gòu)思和情緒引導(dǎo),以及最關(guān)鍵的新能力:駕馭AI實(shí)現(xiàn)創(chuàng)作意圖。 而對(duì)于Adobe在內(nèi)的工具型平臺(tái)而言,摩根士丹利分析師認(rèn)為,這些應(yīng)用軟件在AI時(shí)代的價(jià)值,在于提供“最后一公里”服務(wù)。 事實(shí)上,互聯(lián)網(wǎng)用戶對(duì)于圖像和文字生成的需求,無(wú)論是千人千面的多樣化程度,還是用戶基數(shù)決定的龐大且碎片化的指令數(shù)量,都決定了通用AI模型很難提供端到端的完美解決方案。 因此就像物流運(yùn)輸公司負(fù)責(zé)中途貨運(yùn),最后一公里交由快遞站點(diǎn)配送一樣,Adobe等平臺(tái)目前也開(kāi)始接入第三方基礎(chǔ)大模型,并基于自身的數(shù)據(jù)與資源進(jìn)行后期訓(xùn)練,最終打造出更貼合用戶需求、更專業(yè)的AI落地產(chǎn)品。 換一種視角看,這場(chǎng)技術(shù)浪潮并不是一場(chǎng)零和游戲。Nano Banana的出現(xiàn)加速了產(chǎn)業(yè)洗牌,但同時(shí)也在打開(kāi)新的機(jī)會(huì)窗口。無(wú)論是創(chuàng)作者、設(shè)計(jì)師還是企業(yè),真正的挑戰(zhàn)并非如何抵擋AI,而是如何找到與之協(xié)作的路徑。 工業(yè)革命時(shí)期的機(jī)器擴(kuò)展了人類的肌肉力量,如今的生成式AI則在延展人類的想象力和表達(dá)力?;蛟S我們正在進(jìn)入一個(gè)全新的內(nèi)容創(chuàng)作階段,在這里,人與AI并非對(duì)立的兩極,而是互為補(bǔ)充的伙伴關(guān)系。 與AI共生的時(shí)代,正緩緩拉開(kāi)帷幕。 ![]() |
|
|