今天凌晨,OpenAI 從「彈藥庫」里掏出了 AI 視頻生成工具 Sora,瞬間占據(jù)了各大新聞頭條。就連一向和 OpenAI 不對付的馬斯克也甘心承認(rèn) Sora 的強大,并借此盛贊「在未來的幾年里,人類借助 AI 的力量,將創(chuàng)造出卓越的作品?!?/section>Sora 的強大之處在于能夠根據(jù)文本描述,生成長達 60 秒連貫流暢的視頻,其中包含細膩復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動。對比其他只能生成短至個位數(shù)長度的視頻,Sora 的一分鐘時長無疑起到了掀桌的效果。更為重要的是,無論是在視頻的真實性、長度、穩(wěn)定性、一致性、分辨率還是對文本的理解方面,Sora 均展現(xiàn)出了目前最佳的水平。讓我們先來欣賞一下官方發(fā)布的演示視頻片段。Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.在這段視頻中,無人機視角下的一對情侶穿梭于繁華的城市街道,美麗的櫻花花瓣伴隨著雪花在空中翩翩起舞。
無需任何預(yù)先示例,Sora 就能改變視頻中的風(fēng)格和環(huán)境。甚至兩個風(fēng)格迥異的視頻也能平滑連接起來。 Sora 還能文生圖,研究團隊通過在一個時間范圍僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來創(chuàng)造出各種尺寸的圖像,最大分辨率達到了 2048x2048。實在的 OpenAI 也坦率地承認(rèn)了 Sora 當(dāng)前存在的局限問題,比如它無法模擬復(fù)雜場景的物理效應(yīng),以及理解某些特定因果關(guān)系。舉例來說,它無法精確模擬像玻璃破碎這樣的基本物理互動。
相反方向的跑步不過 OpenAI 堅信,Sora 目前的能力表明,持續(xù)擴展視頻模型是朝著開發(fā)能夠模擬物理和數(shù)字世界及其內(nèi)部的物體、動物和人類的有能力的模擬器的一條充滿希望的途徑。世界模型,AI 的下一個方向?OpenAI 發(fā)現(xiàn),在大規(guī)模訓(xùn)練下,Sora 展示出了一系列引人注目的涌現(xiàn)能力,能夠在一定程度上模擬真實世界中的人、動物和環(huán)境。這些能力并非基于對三維空間或物體的特定預(yù)設(shè),而是由大規(guī)模數(shù)據(jù)驅(qū)動產(chǎn)生的。 三維空間的連貫性:Sora 能生成帶有動態(tài)視角變化的視頻。當(dāng)攝像機位置和角度變動時,視頻中的人物和場景元素能夠在三維空間連貫移動。 遠距離連續(xù)性與物體持久性:即使人物、動物或物體被遮擋或移出畫面,Sora 也能保持長時間視頻的連續(xù)性。同樣,它能在同一視頻樣本中多次展示同一角色,并確保外觀一致。 數(shù)字世界的模擬:Sora 還能模擬數(shù)字化過程,如視頻游戲,只需提及「Minecraft」等字樣,就能激發(fā)其相關(guān)能力。OpenAI 將 Sora 視為「能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)」,相信其能力「將是實現(xiàn) AGI 的重要里程碑」。對于 Sora 的到來,英偉達高級科學(xué)家 Jim Fan 表示:如果你認(rèn)為 OpenAI 的 Sora 就像 DALL·E 那樣,是一個用于創(chuàng)意實驗的工具,那你可能需要重新考慮了。
Sora 實際上是一款基于數(shù)據(jù)的物理模擬引擎,它能夠模擬出真實或虛構(gòu)的世界。這款模擬器通過去噪和梯度計算,學(xué)會了復(fù)雜的圖像渲染、「直觀」的物理行為、長遠規(guī)劃能力以及語義層面的理解。而這種模型能力的基礎(chǔ)正是世界通用模型,這是一種人工智能系統(tǒng),它的目標(biāo)是建立一個可以更新狀態(tài)的神經(jīng)網(wǎng)絡(luò)模塊,用以記憶和建模環(huán)境。 這種模型能夠根據(jù)當(dāng)前的觀測(如圖像、狀態(tài)等)和即將采取的動作,預(yù)測下一個可能的觀測。它通過學(xué)習(xí)世界的規(guī)律和常識,模擬環(huán)境中可能的未來事件。實際上,世界模型并不是什么新鮮的概念,早在去年 12 月,AI 視頻生成的領(lǐng)頭羊 Runway 就官宣下場打造通用世界模型,目的是創(chuàng)建一種與現(xiàn)有的 LLM 不同,并且能夠更真實模擬現(xiàn)實世界的人工智能系統(tǒng)。具體來說,世界模型的核心思想是通過記憶歷史經(jīng)驗來學(xué)習(xí)世界的運作方式,進而預(yù)測未來可能發(fā)生的事件。例如,從一段物體下落的錄像中,模型可以根據(jù)當(dāng)前的畫面預(yù)測下一幀的畫面,從而學(xué)習(xí)到物體運動的物理規(guī)律。圖靈獎得主 Yann LeCun 也曾提出過類似的概念,并批評了基于概率生成自回歸的大模型,如 GPT,認(rèn)為這類模型無法破解幻覺難題。LeCun 和他的團隊甚至預(yù)言,GPT 這類模型在未來五年內(nèi)可能會被淘汰。世界模型可以被看作是人工智能領(lǐng)域中,試圖創(chuàng)建更接近人類智能水平 AI 的一個研究方向。通過模擬和學(xué)習(xí)真實世界的環(huán)境和事件,世界模型有潛力推動 AI 向更高層次的模擬和預(yù)測能力發(fā)展。2 月份的時候,知名風(fēng)險投資公司 a16z 的合伙人 Justine Moore 深入分析了 AI 視頻生成領(lǐng)域的現(xiàn)狀。在生成式 AI 逐漸步入大眾視野的兩年間,AI 視頻生成領(lǐng)域迎來了百花齊放,百家爭鳴的繁榮景象。隨著 OpenAI Sora 的加入,AI 視頻生成領(lǐng)域勢必掀起滔天巨浪,現(xiàn)有的主流平臺如 Runway、Pika 和 Stable Video Diffusion 等都可能會受到波及。同時,獨立創(chuàng)作者的游戲規(guī)則將會徹底改變,任何人只要有創(chuàng)意和想法,就可以使用 Sora 來生成自己的視頻內(nèi)容。創(chuàng)作門檻的降低,也意味著獨立創(chuàng)作者將會迎來黃金時代。正如《三體》中所說,「主不在乎」,無論目前的競爭態(tài)勢如何,AI 視頻生成領(lǐng)域都可能會被新的技術(shù)和創(chuàng)新所顛覆。而 Sora 的入局僅僅只是個開始,遠不是終點。