电竞比分网-中国电竞赛事及体育赛事平台

分享

Sora一騎絕塵,中國(guó)差啥?浙大教授:算力、人才是問題,資金不足導(dǎo)致不敢試險(xiǎn)

 獵手蟑螂 2024-02-25 發(fā)布于廣西

圖源:OpenAI官網(wǎng)(Sora生成視頻截圖)

出品|搜狐科技

作者|鄭松毅

“卷”了一年的“百模大戰(zhàn)”還未結(jié)束,海外AI巨頭OpenAI又給國(guó)內(nèi)科技戰(zhàn)隊(duì)出了難題。

春節(jié)期間,就在大家都在把酒言歡時(shí),OpenAI毫無(wú)征兆地放出了AI新“核武”——文生視頻模型Sora。

令人直呼不可思議的是,Sora能夠根據(jù)用戶的文本描述生成長(zhǎng)達(dá)60秒1080P高質(zhì)量的視頻,其中包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng)。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan高呼,“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,這是視頻生成領(lǐng)域的GPT-3時(shí)刻?!?/p>

在視頻流暢性、清晰度、文字理解、及對(duì)真實(shí)物理世界的還原等方面,Sora的表現(xiàn)已遠(yuǎn)超主流AI視頻工具前輩Pika、Runway、Gen-2等,可以說是“一騎絕塵”。

去年,在ChatGPT問世后,國(guó)內(nèi)百度、阿里、騰訊等互聯(lián)網(wǎng)大廠,以及清華、浙江大學(xué)等學(xué)院派機(jī)構(gòu)紛紛涌入大模型賽道,爭(zhēng)搶人工智能變革時(shí)代的入場(chǎng)券。眾多初創(chuàng)企業(yè)也擼胳膊挽袖子地齊上陣,試圖尋找彎道超車的機(jī)會(huì)。

而如今,文生視頻模型Sora的誕生,不出意外也會(huì)再次掀起一波激戰(zhàn)的浪潮。

從當(dāng)前節(jié)點(diǎn)來看,國(guó)內(nèi)在文生視頻“角斗場(chǎng)”中有哪些選手入場(chǎng)?正在研發(fā)的文生視頻項(xiàng)目做到了什么階段?存在的發(fā)展瓶頸有哪些,和海外的差距究竟在于什么?

Sora橫空出世,國(guó)內(nèi)差距明顯

短短一周內(nèi),國(guó)泰君安、天風(fēng)證券、華泰證券等20余家證券機(jī)構(gòu)均在研報(bào)中表示,OpenAI發(fā)布的Sora模型是AI發(fā)展的又一里程碑,文生視頻邁入新時(shí)代,有望引領(lǐng)多模態(tài)大模型浪潮。

天風(fēng)證券認(rèn)為,隨著OpenAI發(fā)布Sora文生視頻模型能力大幅提升,內(nèi)容創(chuàng)作工作流有望被顛覆,下一個(gè)億級(jí)用戶的互聯(lián)網(wǎng)平臺(tái)雛形已然出現(xiàn)。2000億美元的短視頻創(chuàng)作生態(tài)有望率先被顛覆,生成式AI在視頻創(chuàng)作和世界模型的大踏步進(jìn)步將實(shí)現(xiàn)對(duì)視頻、3D、游戲等下游應(yīng)用場(chǎng)景的滲透。

據(jù)了解,國(guó)內(nèi)科技公司在文生視頻領(lǐng)域已有布局。據(jù)公開資料顯示,包括字節(jié)跳動(dòng)、騰訊、阿里、百度、虹軟科技、愛詩(shī)科技在內(nèi)的一眾科技公司都在積極布局文生視頻模型。但遺憾的是,目前國(guó)內(nèi)大多數(shù)文生視頻模型仍處在技術(shù)研發(fā)階段,暫未有能與Sora能力相匹配的完善產(chǎn)品落地。

在Sora引爆文生視頻賽道前,字節(jié)跳動(dòng)就曾提到計(jì)劃推出一款創(chuàng)新性視頻模型——Boximator。但與Sora、Pika不同的是,Boximator目的是通過文本精準(zhǔn)控制生成視頻中人物或物體的動(dòng)作。字節(jié)跳動(dòng)相關(guān)人士也對(duì)搜狐科技做出了回應(yīng),“Boximator是視頻生成領(lǐng)域控制對(duì)象運(yùn)動(dòng)的技術(shù)方法研究項(xiàng)目,目前還無(wú)法作為完善的產(chǎn)品落地,距離國(guó)外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻市長(zhǎng)方面還有很大的差距?!?/p>

搜狐科技挑選了一款可供測(cè)試的騰訊文生視頻產(chǎn)品“騰訊智影”進(jìn)行實(shí)測(cè)發(fā)現(xiàn),其應(yīng)用場(chǎng)景主要聚焦于生成數(shù)字人播報(bào)視頻。當(dāng)輸入與給定Sora命令相同的文本后,經(jīng)過幾分鐘的等待時(shí)間,其利用網(wǎng)絡(luò)現(xiàn)有視頻素材進(jìn)行拼接生成視頻,并配以文字和語(yǔ)音播報(bào)。但顯然,這與大家期待的Sora級(jí)別生成視頻不是一個(gè)概念。

圖源:騰訊智影測(cè)試截圖

圖源:騰訊智影測(cè)試截圖

如今Sora模型推出,國(guó)內(nèi)暫未有與之跟進(jìn)的大模型出來。一些人也因此認(rèn)為,和OpenAI相比,我們的大模型能力差距沒有縮小,反而在擴(kuò)大。

浙大教授:國(guó)內(nèi)勇于試險(xiǎn)的人太少

據(jù)悉,Sora是一個(gè)擴(kuò)散模型(Diffusion Model),是在大量不同時(shí)長(zhǎng)、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的。

浙江大學(xué)人工智能研究所所長(zhǎng)吳飛對(duì)搜狐科技介紹,Sora在視頻呈現(xiàn)效果上有優(yōu)異表現(xiàn)的背后原理為“對(duì)合成內(nèi)容中最小單元進(jìn)行有意義關(guān)聯(lián)組合”。Sora通過觀察和學(xué)習(xí)海量數(shù)據(jù)視頻后,洞察了視頻中時(shí)空子塊單元(space-time patch)在運(yùn)動(dòng)、顏色、光照和相互遮擋等維度上所應(yīng)該保持的物理規(guī)律。雖然Sora并不能像人類理解牛頓定律一樣理解這些物理規(guī)律,但在合成視頻時(shí),Sora可以記住時(shí)空子塊單元之間應(yīng)該遵守的模式,并在合成過程中用這些模式來約束時(shí)空子塊組合,從而呈現(xiàn)出逼真的視覺效果。

很多人疑惑,中國(guó)也在很早就意識(shí)到大模型多模態(tài)(處理圖片、語(yǔ)音、視頻等信息)發(fā)展的重要性,為什么這一次還是落后了?

浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授湯斯亮對(duì)搜狐科技表示,自己所在的團(tuán)隊(duì)近兩年也在進(jìn)行文生視頻項(xiàng)目的研發(fā)工作,從國(guó)內(nèi)的研發(fā)進(jìn)展來看,目前無(wú)論是在視頻的時(shí)長(zhǎng)、分辨率、清晰度、場(chǎng)景轉(zhuǎn)換的流暢性還是對(duì)物理世界的規(guī)律的還原性上,都與Sora還有不小差距。國(guó)內(nèi)的主要問題在于之前對(duì)于文生視頻技術(shù)發(fā)展的前景預(yù)判不足,過于保守,導(dǎo)致在資源(算力、資金等)上的投入不夠。

湯斯亮在對(duì)話過程中指出限制國(guó)內(nèi)技術(shù)發(fā)展的主要影響因素為大算力、大數(shù)據(jù)、以及先進(jìn)算法,三者需要相互匹配。

在湯斯亮看來,國(guó)內(nèi)發(fā)展AI技術(shù)最大的限制首先是與視頻大數(shù)據(jù)匹配的大算力。OpenAI究竟用了多大量級(jí)的視頻數(shù)據(jù)去做Sora訓(xùn)練目前沒有披露,但從視頻清晰度和其生成的視頻多樣性(電影、短視頻、監(jiān)控視頻、廣告、游戲等)來看,肯定是用了大量的高清視頻樣本,訓(xùn)練尺度(training scale)肯定是驚人的,可能是之前文生視頻模型訓(xùn)練量級(jí)的千倍甚至更多。

他介紹,就算力消耗而言,視頻預(yù)訓(xùn)練和文本預(yù)訓(xùn)練也完全不是一個(gè)數(shù)量級(jí)。因?yàn)樵趯W(xué)習(xí)視頻編碼到隱空間向量的過程中,需要從每個(gè)視頻幀中提取大量特征,由于視頻存在大量的時(shí)間與空間的冗余性,使得其編碼效率遠(yuǎn)低于文本,訓(xùn)練與文本預(yù)訓(xùn)練相同參數(shù)量的模型需要用到更多的數(shù)據(jù),消耗的算力可能會(huì)在幾個(gè)量級(jí)以上。另外,在利用擴(kuò)散模型將隱空間向量解碼回視頻的過程中,要想生成的視頻達(dá)到如此高的分辨率,對(duì)于算力的需求也是成倍增長(zhǎng)。如何能夠保證在如此大規(guī)模的訓(xùn)練數(shù)據(jù)下,利用海量的分布式算力,持續(xù)穩(wěn)定的訓(xùn)練Sora大模型,體現(xiàn)了OpenAI在大算力大數(shù)據(jù)匹配方面的技術(shù)積累。

“第二個(gè)差距在于數(shù)據(jù)方面。相較于高質(zhì)量的文本和圖片數(shù)據(jù),高質(zhì)量的視頻數(shù)據(jù)樣本數(shù)量本身較少,版權(quán)限制也比較多,圖文匹配數(shù)據(jù)的標(biāo)注、清洗難度也大很多。尤其是對(duì)于企業(yè)來說,以盈利為目的去收集數(shù)據(jù)會(huì)受到限制?!?/p>

湯斯亮把算法放在了最后來談,是因?yàn)樗J(rèn)為研發(fā)并應(yīng)用先進(jìn)算法的風(fēng)險(xiǎn)較高,目前從公開披露的消息來看,大部分企業(yè)即使是OpenAI,也盡量避免采用全新的技術(shù)路線,而是在不斷推動(dòng)現(xiàn)有技術(shù)路線的邊界。

他提到,擴(kuò)散模型(diffusion model)的概念最早在2015年就有了,國(guó)內(nèi)的團(tuán)隊(duì)也一直在探索和應(yīng)用。對(duì)于Sora來說,它的成功得益于OpenAI敢冒風(fēng)險(xiǎn),舍得花費(fèi)大量的錢和時(shí)間去不斷調(diào)優(yōu)現(xiàn)有技術(shù)框架,探索與視頻大數(shù)據(jù)、大算力匹配的可用技術(shù),而非全新技術(shù)。

“收集、存儲(chǔ)、標(biāo)注、以及要將大量的視頻數(shù)據(jù)樣本在系統(tǒng)中跑起來,這個(gè)成本可以說是相當(dāng)高的。但國(guó)內(nèi)的現(xiàn)實(shí)情況是,在Sora出現(xiàn)前,幾乎沒人相信花這么高成本去做文生視頻這件事能帶來多大收益,因此沒有人愿意試險(xiǎn)?!?/p>

他表示,未來類似于transformer這樣的全新算法可能會(huì)越來越少,因?yàn)橐粋€(gè)全新算法想要替代現(xiàn)有的主流算法框架,其運(yùn)行、測(cè)試驗(yàn)證等過程需要消耗的成本巨大,并且誰(shuí)也沒法保證新算法跑出來的效果就比之前的好,沒人愿意擔(dān)風(fēng)險(xiǎn),因此現(xiàn)在大家更多都是在做對(duì)現(xiàn)有模型的小修小補(bǔ)。

談及距離國(guó)內(nèi)實(shí)現(xiàn)OpenAI類似級(jí)別的應(yīng)用落地還需要多久時(shí),湯斯亮毫不忌諱地說,“在國(guó)內(nèi)環(huán)境做的話,肯定和OpenAI是不一樣的,國(guó)內(nèi)投資對(duì)于回報(bào)的壓力比較大,肯定是以短期內(nèi)能盈利為目的。如果能看得到明確的商業(yè)應(yīng)用場(chǎng)景,并且有足夠數(shù)據(jù)和算力的情況下,實(shí)現(xiàn)周期會(huì)很快,可能一年內(nèi)就會(huì)有差不多的應(yīng)用做出來。但如果相反,兩到三年都有可能。

他認(rèn)為,“在這條賽道上,企業(yè)會(huì)比院校跑的更快些,因?yàn)槠髽I(yè)有更多的算力和資金。這個(gè)時(shí)候想法不值錢,能做出來才有價(jià)值?!?/p>

吳飛對(duì)此表示,“AI發(fā)展是一個(gè)技術(shù)、人才和資本三者結(jié)合的高新產(chǎn)業(yè)。國(guó)內(nèi)的短板在于原始創(chuàng)新人才不足,在這一深度學(xué)習(xí)為主的人工智能崛起中從0到1的理論模型都不是從中國(guó)提出,中國(guó)的科學(xué)研究往往采取了跟進(jìn)模式。OpenAI在Sora的成功,是技術(shù)創(chuàng)新、頂尖人才和資本投入的組合。”

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多