|
在 AI 大模型發(fā)布會(huì)動(dòng)輒 CEO 站臺(tái)、全程高光的當(dāng)下,2025 年 8 月,谷歌用一根 "香蕉" 完成了一場(chǎng)教科書(shū)級(jí)的產(chǎn)品出圈。一個(gè)最初以 "nano-banana" 為名匿名現(xiàn)身的 AI 模型,憑借顛覆性的圖像生成與編輯能力,在社交網(wǎng)絡(luò)掀起病毒式傳播,最終被谷歌正式認(rèn)領(lǐng)為 Gemini 2.5 Flash Image。這場(chǎng)從 "神秘暗號(hào)" 到 "技術(shù)標(biāo)桿" 的逆襲,不僅重新定義了 AI 圖像工具的交互邏輯,更開(kāi)創(chuàng)了科技產(chǎn)品 "社區(qū)民選" 的發(fā)布新范式。 從匿名黑馬到官方認(rèn)證:一場(chǎng)由 "香蕉" 開(kāi)啟的解謎游戲故事的起點(diǎn)始于 LMArena 實(shí)驗(yàn)平臺(tái)的 "Battle" 模式。8 月中旬,一個(gè)未標(biāo)注開(kāi)發(fā)者信息的模型突然闖入用戶視野,其在圖像一致性和自然語(yǔ)言編輯上的表現(xiàn)遠(yuǎn)超同期競(jìng)品。用戶們被這個(gè)神秘模型的實(shí)力折服,自發(fā)為其創(chuàng)造 "一致性之王""Photoshop 殺手 "等標(biāo)簽,因其匿名代號(hào)中包含"banana"," 香蕉 " 逐漸成為指代該模型的暗號(hào)。 這場(chǎng)解謎游戲的關(guān)鍵線索,來(lái)自谷歌高管們的 "默契暗示"。Google AI Studio 負(fù)責(zé)人 Logan Kilpatrick 在 X 平臺(tái)發(fā)布了一個(gè)香蕉表情符號(hào),DeepMind 產(chǎn)品經(jīng)理 Naina Raisinghani 則分享了一張酷似意大利藝術(shù)家 Maurizio Cattelan 2019 年香蕉貼墻作品的圖片。結(jié)合谷歌過(guò)往習(xí)慣將小型模型命名為 "Nano",以及該模型與 Gemini 系列相似的圖像質(zhì)感,社區(qū)很快將線索指向谷歌。 當(dāng)猜測(cè)達(dá)到頂峰時(shí),谷歌于 8 月 27 日正式揭曉答案:"nano-banana" 正是全新推出的 Gemini 2.5 Flash Image。此時(shí),這個(gè)匿名模型已在 Reddit、X、Discord 等平臺(tái)積累了大量自發(fā)傳播的測(cè)試案例,用戶為獲得一次使用機(jī)會(huì),甚至反復(fù)參與 LMArena 的盲測(cè)投票 —— 這種 "先圈粉后官宣" 的路徑,徹底打破了科技產(chǎn)品傳統(tǒng)發(fā)布的固有邏輯。 三大核心技術(shù):重新定義 AI 圖像編輯的邊界谷歌官方披露的信息顯示,Gemini 2.5 Flash Image 的突破集中在三個(gè)維度,每一項(xiàng)都直指?jìng)鹘y(tǒng)圖像工具的痛點(diǎn)。 顛覆性的一致性技術(shù)解決了 AI 生成領(lǐng)域的長(zhǎng)期難題。在連續(xù)編輯或多圖融合場(chǎng)景中,模型能精準(zhǔn)保持人物身份、物體特征的穩(wěn)定性。實(shí)測(cè)中,當(dāng)要求將甄嬛與安陵容的形象融入現(xiàn)代都市背景,并保留復(fù)雜的中國(guó)傳統(tǒng)首飾時(shí),即便人物姿勢(shì)轉(zhuǎn)動(dòng)、場(chǎng)景切換,袖口花紋與頭飾細(xì)節(jié)仍完好無(wú)損。更令人驚艷的是,通過(guò)簡(jiǎn)筆畫(huà)示意修改姿勢(shì),哪怕是抽象的火柴人線條,模型也能準(zhǔn)確理解并調(diào)整人物動(dòng)作,這遠(yuǎn)超此前多圖融合對(duì)固定格式的依賴(lài)。 自然語(yǔ)言驅(qū)動(dòng)編輯讓專(zhuān)業(yè)工具 "平民化"。用戶無(wú)需掌握?qǐng)D層、遮罩等復(fù)雜操作,僅通過(guò)對(duì)話式指令就能完成高精度修改。上傳一摞橫放的書(shū)籍與床頭柜圖片,一句 "將書(shū)籍立起并放在兩個(gè)書(shū)擋之間",模型便能精準(zhǔn)執(zhí)行;為模特添加棒球帽時(shí),不僅帽子上的文字刺繡細(xì)節(jié)清晰,光線、視角與原圖的融合度也近乎完美。這種 "所想即所得" 的交互,徹底降低了圖像創(chuàng)作的技術(shù)門(mén)檻。 閃電速度則重塑了用戶體驗(yàn)。圖像生成與編輯的響應(yīng)時(shí)間普遍控制在 1-2 秒內(nèi),接近實(shí)時(shí)交互。即便在大量用戶涌入導(dǎo)致平臺(tái)負(fù)載增加時(shí),核心功能仍能保持高效運(yùn)轉(zhuǎn) —— 這種性能表現(xiàn),為商業(yè)場(chǎng)景的規(guī)?;瘧?yīng)用奠定了基礎(chǔ)。 實(shí)測(cè)中的驚喜與遺憾:AI 離完美還有多遠(yuǎn)?盡管技術(shù)亮點(diǎn)突出,但實(shí)測(cè)過(guò)程中,Gemini 2.5 Flash Image 也暴露了當(dāng)前 AI 模型的共性問(wèn)題,為其 "神壇" 形象增添了幾分真實(shí)感。 在 "手辦自由" 測(cè)試中,指令要求生成七個(gè) Labubu 玩偶,模型雖精準(zhǔn)還原了搪膠材質(zhì)與外形特征,數(shù)量卻少了一個(gè);因提示詞中包含 "正版" 字樣,模型直接拒絕輸出,修改措辭后才完成任務(wù)。這表明,模型對(duì)數(shù)字的精確識(shí)別、特定概念的理解仍存在局限。 商品替換場(chǎng)景的表現(xiàn)更具戲劇性。將香水瓶融入場(chǎng)景時(shí),模型雖匹配了材質(zhì)與樣式,卻生成了 "超大杯" 尺寸;后續(xù)多次通過(guò)提示詞要求調(diào)整至正常大小,結(jié)果幾乎沒(méi)有變化。這種對(duì)物體比例的判斷偏差,以及對(duì)修正指令的 "固執(zhí)",反映出模型在邏輯推理與反饋調(diào)整上的不足。 細(xì)節(jié)瑕疵同樣不容忽視。生成的書(shū)籍封面上,部分文字呈現(xiàn) "鬼畫(huà)符" 狀;人物手指偶爾出現(xiàn)畸形;在光照反射、物體位置邏輯上,也存在細(xì)微的不合理之處。此外,由于尚未開(kāi)放官方 API,用戶只能通過(guò) LMArena 平臺(tái)隨機(jī)體驗(yàn),"靠運(yùn)氣使用" 的模式與網(wǎng)上涌現(xiàn)的假網(wǎng)站,進(jìn)一步影響了體驗(yàn)的穩(wěn)定性。 社區(qū)驅(qū)動(dòng)的發(fā)布革命:科技產(chǎn)品的新敘事方式Gemini 2.5 Flash Image 的出圈,不僅是技術(shù)的勝利,更開(kāi)創(chuàng)了科技產(chǎn)品發(fā)布的新范式。這種 "匿名測(cè)試 - 社區(qū)發(fā)酵 - 官方認(rèn)領(lǐng)" 的路徑,與傳統(tǒng)大廠 "高舉高打" 的發(fā)布會(huì)形成鮮明對(duì)比。 在 LMArena 的盲測(cè)機(jī)制下,用戶僅憑生成效果投票,完全排除了品牌偏見(jiàn) —— 這種 "用實(shí)力說(shuō)話" 的篩選方式,讓模型的真實(shí)性能得到純粹認(rèn)證。兩周時(shí)間里,用戶自發(fā)開(kāi)展極限測(cè)試、分享案例、創(chuàng)造傳播標(biāo)簽,形成了強(qiáng)大的口碑勢(shì)能。當(dāng)谷歌在熱度峰值時(shí)正式認(rèn)領(lǐng),本質(zhì)上是將社區(qū)的自發(fā)傳播轉(zhuǎn)化為官方發(fā)布的聲量,既避免了過(guò)度炒作的反噬,又讓產(chǎn)品實(shí)力提前成為 "市場(chǎng)共識(shí)"。 這種模式并非谷歌首創(chuàng),此前 OpenAI 也曾讓神秘模型 "im-also-a-good-gpt2-chatbot" 在平臺(tái)盲測(cè),最終揭曉為 GPT-4o 測(cè)試版。但 Gemini 2.5 Flash Image 的成功,進(jìn)一步驗(yàn)證了 "社區(qū)民選" 的可行性:在 AI 競(jìng)賽白熱化的當(dāng)下,用戶不再被動(dòng)接受廠商的宣傳,而是主動(dòng)參與產(chǎn)品的 "篩選" 與 "推廣",這種互動(dòng)關(guān)系的轉(zhuǎn)變,或許將成為下一代科技產(chǎn)品的標(biāo)配。 未來(lái)想象:從圖像編輯到視頻創(chuàng)作的生態(tài)延伸Gemini 2.5 Flash Image 的價(jià)值,早已超越單一工具的范疇。社區(qū)開(kāi)發(fā)者發(fā)現(xiàn),將其與谷歌 Veo 3 視頻生成工具結(jié)合,能構(gòu)建出全新的創(chuàng)作工作流:提取視頻片段的最后一幀,用 Gemini 2.5 Flash Image 生成下一幀場(chǎng)景,再通過(guò) Veo 3 制作動(dòng)畫(huà),即可完成較長(zhǎng)視頻的創(chuàng)作。有開(kāi)發(fā)者用這種方式制作了 "博物館潛行盜取名畫(huà)" 的短片,從場(chǎng)景切換到動(dòng)作連貫性,效果遠(yuǎn)超傳統(tǒng) AI 視頻工具。 更有趣的應(yīng)用來(lái)自 "插畫(huà)轉(zhuǎn)手辦" 場(chǎng)景。上傳插畫(huà)圖片,指令要求 "將其轉(zhuǎn)化為手辦,背景放置印有角色形象的包裝盒與顯示 Blender 建模過(guò)程的電腦,前方添加圓形塑料底座",模型生成的手辦不僅細(xì)節(jié)逼真,PVC 材質(zhì)的通透感也栩栩如生。再通過(guò) Veo 3 制作 8 秒旋轉(zhuǎn)展示視頻,一個(gè)完整的 "靜態(tài)轉(zhuǎn)動(dòng)態(tài)" 創(chuàng)作流程就此完成。 目前,谷歌已對(duì)所有 Gemini 用戶免費(fèi)開(kāi)放 Veo 3 體驗(yàn)(截至北京時(shí)間 8 月 25 日),免費(fèi)用戶每天可生成 3 個(gè) 8 秒視頻片段,這一舉措無(wú)疑將進(jìn)一步推動(dòng)創(chuàng)作生態(tài)的繁榮。隨著技術(shù)的迭代,未來(lái) AI 圖像與視頻工具的融合,或許將徹底改變內(nèi)容創(chuàng)作的生產(chǎn)方式。 從一根香蕉的神秘暗號(hào),到重新定義 AI 圖像編輯的技術(shù)標(biāo)桿,Gemini 2.5 Flash Image 的故事,既是科技突破的縮影,也是用戶與廠商關(guān)系重構(gòu)的見(jiàn)證。盡管模型仍有瑕疵,但它展現(xiàn)的技術(shù)潛力與發(fā)布創(chuàng)新,已為 AI 創(chuàng)作領(lǐng)域指明了新的方向 —— 當(dāng)技術(shù)真正服務(wù)于人的創(chuàng)意,而非讓人適應(yīng)技術(shù)的復(fù)雜時(shí),AI 的價(jià)值才能得到最大程度的釋放。
|
|
|
來(lái)自: 如賺財(cái)經(jīng) > 《待分類(lèi)》