揭秘最強視頻生成模型 Sora，OpenAI 是怎么實現(xiàn) 1 分鐘一鏡到底的？

天承辦公室 2024-02-17 發(fā)布于江蘇

展開全文

今天凌晨，OpenAI 從「彈藥庫」里掏出了 AI 視頻生成工具 Sora，瞬間占據(jù)了各大新聞頭條。

就連一向和 OpenAI 不對付的馬斯克也甘心承認(rèn) Sora 的強大，并借此盛贊「在未來的幾年里，人類借助 AI 的力量，將創(chuàng)造出卓越的作品?！?/section>

Sora 的強大之處在于能夠根據(jù)文本描述，生成長達 60 秒連貫流暢的視頻，其中包含細膩復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動。

對比其他只能生成短至個位數(shù)長度的視頻，Sora 的一分鐘時長無疑起到了掀桌的效果。

更為重要的是，無論是在視頻的真實性、長度、穩(wěn)定性、一致性、分辨率還是對文本的理解方面，Sora 均展現(xiàn)出了目前最佳的水平。讓我們先來欣賞一下官方發(fā)布的演示視頻片段。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

在這段視頻中，無人機視角下的一對情侶穿梭于繁華的城市街道，美麗的櫻花花瓣伴隨著雪花在空中翩翩起舞。

當(dāng)其他工具還在努力保持單鏡頭穩(wěn)定時，Sora 已經(jīng)絲滑實現(xiàn)多鏡頭的無縫切換，且鏡頭切換的連貫性和對象的一致性效果都遙遙領(lǐng)先，真降維打擊。??

視頻源自 @gabor

在過去，要拍攝這樣一段視頻可能需要耗費大量時間和精力進行劇本創(chuàng)作、分鏡頭設(shè)計等一系列繁瑣的工作。而現(xiàn)在，僅需一段簡單的文本描述，Sora 就能徹底生成這樣的大場面，相關(guān)從業(yè)者或許已經(jīng)開始瑟瑟發(fā)抖了。

網(wǎng)友 @debarghya_das 用 OpenAI Sora 剪輯、David Attenborough 在 Eleven Labs 上的聲音以及 iMovie 上 Youtube 上的一些自然音樂樣本，在 15 分鐘內(nèi)制作了這個 20 多秒的預(yù)告片。

Sora 是怎么實現(xiàn)強大效果的？

OpenAI 也發(fā)布了一份關(guān)于 Sora 詳細的技術(shù)報告，介紹了其背后的技術(shù)原理和應(yīng)用。

那么，Sora 是如何實現(xiàn)這一突破的呢？受到 LLM 成功實踐經(jīng)驗的啟發(fā)，OpenAI 引入了視覺塊嵌入代碼（patches），這是一種高度可擴展且有效的視覺數(shù)據(jù)表現(xiàn)形式，能夠極大地提升生成模型處理多樣化視頻和圖像數(shù)據(jù)的能力。

在高維度空間中，OpenAI 首先將視頻數(shù)據(jù)壓縮至一個低維潛在空間，然后再將其分解為時空嵌入，從而將視頻轉(zhuǎn)化為一系列編碼塊。

接下來，OpenAI 訓(xùn)練了一個專門用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)以原始視頻作為輸入，輸出的潛在表示在時間和空間上都經(jīng)過了壓縮。Sora 正是在這個壓縮后的潛在空間中進行訓(xùn)練，并在該空間內(nèi)生成視頻。

此外，OpenAI 還訓(xùn)練了一個解碼器模型，能夠?qū)⑦@些潛在表征還原為像素級的視頻圖像。

通過對壓縮后的視頻輸入進行處理，研究人員能夠提取出一系列的時空 patchs，這些 patchs 在模型中扮演著類似于 Transformer Tokens 的角色。

采用基于 patchs 的表現(xiàn)形式，Sora 能夠適應(yīng)不同分辨率、持續(xù)時間及寬高比的視頻和圖像，在生成新視頻內(nèi)容時，可以通過將這些隨機初始化的 patchs 按照需要的大小排列成網(wǎng)格，來控制最終視頻的大小和形式。

盡管上述原理聽起來頗為復(fù)雜，但實際上 OpenAI 所用到的這項新技術(shù)--視覺塊嵌入代碼（簡稱視覺塊）。就好比是將一堆雜亂無章的積木整理好放入一個小盒子中。如此一來，即便面對眾多積木，只要找到了這個小盒子就能輕松找到所需積木。

由于視頻數(shù)據(jù)被轉(zhuǎn)化為了一個個小方塊的形式，當(dāng) OpenAI 向 Sora 提供一個新的視頻任務(wù)時，他們首先會從該視頻中提取出一些包含時間和空間信息的小方塊。隨后將這些小方塊交給 Sora 讓其根據(jù)這些信息生成新的視頻。

這樣就可以像拼拼圖一樣，把視頻重新組合起來。這樣做的好處是，計算機可以更快地學(xué)習(xí)和處理各種不同類型的圖片和視頻。

隨著 Sora 的訓(xùn)練越來越深入，OpenAI 的研究人員還發(fā)現(xiàn)隨著訓(xùn)練計算量的增加，樣本質(zhì)量得到了顯著提高。

OpenAI 發(fā)現(xiàn)直接在數(shù)據(jù)的原始尺寸上進行訓(xùn)練具有諸多優(yōu)勢：

Sora 訓(xùn)練時沒有對素材進行裁切，使得 Sora 能夠直接按照不同設(shè)備的原生寬高比創(chuàng)建內(nèi)容。

在視頻的原生寬高比上進行訓(xùn)練，能夠顯著提升視頻的構(gòu)圖與布局質(zhì)量。

此外，Sora 還具有以下特性：

訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有文字標(biāo)題的視頻。OpenAI 將在 DALL·E 3 中引入的重新標(biāo)注技術(shù)應(yīng)用到視頻上。

類似于 DALL·E 3，OpenAI 利用 GPT 將用戶的簡短提示轉(zhuǎn)換成更長的詳細說明，然后發(fā)送給視頻模型，從而使得 Sora 能夠生成高質(zhì)量的視頻。

除了可以從文字轉(zhuǎn)化而來，Sora 還能接受圖片或已有視頻的輸入。這項功能讓 Sora 能夠完成各種圖片和視頻編輯任務(wù)，比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動畫效果、延長視頻的播放時間等。

形成「SORA」字樣的逼真云朵圖像。

在一個裝飾華麗的歷史大廳里，一道巨大的海浪正準(zhǔn)備沖擊而來。兩位沖浪者抓住機會，巧妙地駕馭著海浪。

無需任何預(yù)先示例，Sora 就能改變視頻中的風(fēng)格和環(huán)境。甚至兩個風(fēng)格迥異的視頻也能平滑連接起來。

Sora 還能文生圖，研究團隊通過在一個時間范圍僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來創(chuàng)造出各種尺寸的圖像，最大分辨率達到了 2048x2048。

實在的 OpenAI 也坦率地承認(rèn)了 Sora 當(dāng)前存在的局限問題，比如它無法模擬復(fù)雜場景的物理效應(yīng)，以及理解某些特定因果關(guān)系。舉例來說，它無法精確模擬像玻璃破碎這樣的基本物理互動。

相反方向的跑步

不過 OpenAI 堅信，Sora 目前的能力表明，持續(xù)擴展視頻模型是朝著開發(fā)能夠模擬物理和數(shù)字世界及其內(nèi)部的物體、動物和人類的有能力的模擬器的一條充滿希望的途徑。

世界模型，AI 的下一個方向？

OpenAI 發(fā)現(xiàn)，在大規(guī)模訓(xùn)練下，Sora 展示出了一系列引人注目的涌現(xiàn)能力，能夠在一定程度上模擬真實世界中的人、動物和環(huán)境。

這些能力并非基于對三維空間或物體的特定預(yù)設(shè)，而是由大規(guī)模數(shù)據(jù)驅(qū)動產(chǎn)生的。

三維空間的連貫性：Sora 能生成帶有動態(tài)視角變化的視頻。當(dāng)攝像機位置和角度變動時，視頻中的人物和場景元素能夠在三維空間連貫移動。

遠距離連續(xù)性與物體持久性：即使人物、動物或物體被遮擋或移出畫面，Sora 也能保持長時間視頻的連續(xù)性。同樣，它能在同一視頻樣本中多次展示同一角色，并確保外觀一致。

數(shù)字世界的模擬：Sora 還能模擬數(shù)字化過程，如視頻游戲，只需提及「Minecraft」等字樣，就能激發(fā)其相關(guān)能力。

OpenAI 將 Sora 視為「能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)」，相信其能力「將是實現(xiàn) AGI 的重要里程碑」。

對于 Sora 的到來，英偉達高級科學(xué)家 Jim Fan 表示：

如果你認(rèn)為 OpenAI 的 Sora 就像 DALL·E 那樣，是一個用于創(chuàng)意實驗的工具，那你可能需要重新考慮了。

Sora 實際上是一款基于數(shù)據(jù)的物理模擬引擎，它能夠模擬出真實或虛構(gòu)的世界。這款模擬器通過去噪和梯度計算，學(xué)會了復(fù)雜的圖像渲染、「直觀」的物理行為、長遠規(guī)劃能力以及語義層面的理解。

而這種模型能力的基礎(chǔ)正是世界通用模型，這是一種人工智能系統(tǒng)，它的目標(biāo)是建立一個可以更新狀態(tài)的神經(jīng)網(wǎng)絡(luò)模塊，用以記憶和建模環(huán)境。

這種模型能夠根據(jù)當(dāng)前的觀測（如圖像、狀態(tài)等）和即將采取的動作，預(yù)測下一個可能的觀測。它通過學(xué)習(xí)世界的規(guī)律和常識，模擬環(huán)境中可能的未來事件。

實際上，世界模型并不是什么新鮮的概念，早在去年 12 月，AI 視頻生成的領(lǐng)頭羊 Runway 就官宣下場打造通用世界模型，目的是創(chuàng)建一種與現(xiàn)有的 LLM 不同，并且能夠更真實模擬現(xiàn)實世界的人工智能系統(tǒng)。

具體來說，世界模型的核心思想是通過記憶歷史經(jīng)驗來學(xué)習(xí)世界的運作方式，進而預(yù)測未來可能發(fā)生的事件。例如，從一段物體下落的錄像中，模型可以根據(jù)當(dāng)前的畫面預(yù)測下一幀的畫面，從而學(xué)習(xí)到物體運動的物理規(guī)律。

圖靈獎得主 Yann LeCun 也曾提出過類似的概念，并批評了基于概率生成自回歸的大模型，如 GPT，認(rèn)為這類模型無法破解幻覺難題。LeCun 和他的團隊甚至預(yù)言，GPT 這類模型在未來五年內(nèi)可能會被淘汰。

世界模型可以被看作是人工智能領(lǐng)域中，試圖創(chuàng)建更接近人類智能水平 AI 的一個研究方向。通過模擬和學(xué)習(xí)真實世界的環(huán)境和事件，世界模型有潛力推動 AI 向更高層次的模擬和預(yù)測能力發(fā)展。

2 月份的時候，知名風(fēng)險投資公司 a16z 的合伙人 Justine Moore 深入分析了 AI 視頻生成領(lǐng)域的現(xiàn)狀。在生成式 AI 逐漸步入大眾視野的兩年間，AI 視頻生成領(lǐng)域迎來了百花齊放，百家爭鳴的繁榮景象。

隨著 OpenAI Sora 的加入，AI 視頻生成領(lǐng)域勢必掀起滔天巨浪，現(xiàn)有的主流平臺如 Runway、Pika 和 Stable Video Diffusion 等都可能會受到波及。

同時，獨立創(chuàng)作者的游戲規(guī)則將會徹底改變，任何人只要有創(chuàng)意和想法，就可以使用 Sora 來生成自己的視頻內(nèi)容。創(chuàng)作門檻的降低，也意味著獨立創(chuàng)作者將會迎來黃金時代。

正如《三體》中所說，「主不在乎」，無論目前的競爭態(tài)勢如何，AI 視頻生成領(lǐng)域都可能會被新的技術(shù)和創(chuàng)新所顛覆。而 Sora 的入局僅僅只是個開始，遠不是終點。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：天承辦公室 > 《008矩陣藍圖》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

天承辦公室

關(guān)注對話

TA的最新館藏

仿古詩詞：鵲橋謠
仿古詩詞：風(fēng)月佳人
為何社會總是將權(quán)力交給蠢人——馬基雅維利
雇傭過目即忘的天才：為什么企業(yè)級AI總在浪費錢？
多數(shù)人創(chuàng)業(yè)失敗都是活該
一場正在展開的“再農(nóng)村化進程”

喜歡該文的人也喜歡更多

熱門閱讀換一換

电竞比分网-中国电竞赛事及体育赛事平台

揭秘最強視頻生成模型 Sora，OpenAI 是怎么實現(xiàn) 1 分鐘一鏡到底的？

揭秘最強視頻生成模型 Sora，OpenAI 是怎么實現(xiàn) 1 分鐘一鏡到底的？