|
來 源:雷科技互聯(lián)網(wǎng)組
編 輯:冬日果醬 就在本月,WSJ 引述知情人士稱,作為 2022 年爆紅的聊天機器人 ChatGPT 背后的公司,OpenAI 正在談判以收購要約的形式出售現(xiàn)有股份,這起交易對 OpenAI 的估值達到 290 億美元左右。在 2021 年的一場交易中,OpenAI 的估值還只是在 140 億美元左右。估值高漲的背后不只是因為 ChatGPT,OpenAI 旗下另一個 AI 生成圖像模型——DALL-E 2 同樣展現(xiàn)了生成式 AI 的能力可以有多高。2022 年,從 Stable Diffusion 以開源形式引爆 AI 創(chuàng)作,到 GPTChat 一周內(nèi)就突破了百萬級用戶注冊,全球出現(xiàn)了無數(shù)生成式 AI 的產(chǎn)品和創(chuàng)業(yè)公司,文本、圖像乃至視頻,掀起了巨大的 AIGC(人工智能生成內(nèi)容)浪潮。 基于 Stable Diffusion 開源模型,字節(jié)也推出 2022 抖音年度爆款「AI 繪畫」,統(tǒng)計顯示有 2758.3 萬人使用過這款特效。抖音和快手都看到了 AIGC 技術(shù)在圖像應(yīng)用上的巨大價值,快手對 AIGC 的布局也證實了這一點。快手在 11 月聯(lián)合百度 AI 數(shù)字人希加加、度曉曉等發(fā)布短視頻,進行 24 小時 AI 直播,還通過 AIGC 技術(shù)進行作畫、寫詩、寫歌詞等。6 月,一位谷歌高級軟件工程師甚至聲稱,谷歌開發(fā)的對話式 AI LaMDA「有意識、有靈魂」,但隨后很快被谷歌否認(rèn)。而在一個月前,谷歌剛剛在 2022 年 I/O 大會上公布了 LaMDA2,稱其為谷歌有史以來最先進的對話式 AI,與年底紅遍全球的 ChatGPT 有著相同的語言模型技術(shù)和原生應(yīng)用場景。12 月 16 日,知名學(xué)術(shù)期刊《科學(xué)》雜志公布了 2022 年十大科學(xué)突破,記錄一年里最重大的科學(xué)發(fā)現(xiàn)、進展和趨勢,其中一項就是「AI 具備創(chuàng)造力」。用我們更熟悉的詞就是:AIGC,即基于 AI 能力的內(nèi)容創(chuàng)作。當(dāng) AI 開始擁有大規(guī)模創(chuàng)造內(nèi)容的能力,很多事情都可能被顛覆。AI作畫開始大眾化 2022 年 4 月,人工智能研究公司 OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2,隨后一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網(wǎng)絡(luò)。相比前代,DALL-E 2 生成圖像有了更高的分辨率和更低的延遲,同樣基于用戶描述文本進行生成。不過和之前 OpenAI 推出的產(chǎn)品一樣,DALL-E 2 開始并不對外開放,僅限部分研究人員注冊使用該程序,一直到 9 月才宣布向公眾開放使用,每月僅限 15 個免費圖像。這也為下半年 Stable Diffusion 的爆火和流行提供了機會。如果說上半年最火的「AI 畫師」當(dāng)屬 DALL-E 2 和 Midjourney,8 月 22 日 Stable Diffusion 發(fā)布之后基本就成了「AI 畫師」的代名詞。在目前的三大 AI 圖像模型中,Stable Diffusion 誕生得最晚,但由于發(fā)展良好的開源社區(qū),它的用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E。任何人都可以免費使用,任何公司也可以基于開源項目定制自己的 AI 生成圖像程序。 「一個不在乎人工智能爭論的老藝術(shù)家」 ,圖/DrMacabre68「我們已經(jīng)看到 3 歲到 90 歲的人第一次開始創(chuàng)作?!筍tabilityAI CEO Emad Mostaque 在一次采訪中說,該公司資助了 Stable Diffusion 的開發(fā)。在海外知名論壇 Reddit 的「StableDiffusion」板塊下,每天都有用戶分享通過 Stable Diffusion 生成新的圖像作品。到現(xiàn)在「AI 畫師」已經(jīng)可以走入千家萬戶。用戶可以在本地部署,普通消費級顯卡就能滿足硬件要求,也可以直接輸入一串網(wǎng)址,直接輸入描述文本開始創(chuàng)作,這是 2021 年 DALL-E 初代發(fā)布的時候不敢想的。不僅如此,「AI 畫師」出現(xiàn)和流行也在 2022 年挑戰(zhàn)人類的美術(shù)和圖片產(chǎn)業(yè)。9 月,全球最大圖庫蓋蒂圖片社(Getty Images)宣布禁止上傳和銷售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 藝術(shù)工具生成的插圖。蓋蒂認(rèn)為 AI 產(chǎn)生的圖片并非是一種人類創(chuàng)造性的藝術(shù)品。 同月,游戲公司 CEO 兼游戲設(shè)計師 Jason Allen 通過 Midjourney 生成的《太空歌劇院》,在美國科羅拉多州博覽會舉辦的藝術(shù)展中一舉奪得數(shù)字藝術(shù)組大獎。但這次獲獎也引起了廣泛的爭論,有人認(rèn)為這對其他自己創(chuàng)作的人不公平,「這就跟為什么我們不讓機器人參加奧運會的原因完全一樣?!箙⒓釉u審的藝術(shù)家杜蘭(Cal Duran)甚至表示,他在評分的時候根本沒意識到這幅畫由 AI 生成。相比之下,百度更加務(wù)實,一開始就確定了自己「輔助」定位。8 月,百度基于自身的文心大模型也推出了AI 繪畫平臺「文心一格」,更明確定位為面向有設(shè)計需求和創(chuàng)意的人群,基于文心大模型智能生成多樣化AI創(chuàng)意圖片,輔助創(chuàng)作者的創(chuàng)意設(shè)計。在技術(shù)之外,AI 生成圖像還在探索如何解決版權(quán)等一系列問題。用嘴做視頻?還要再等等作為 AI 大廠,Meta 和谷歌實際上沒有缺席任何一個重要的 AI 技術(shù),在 AI 視頻生成上更是獨領(lǐng)風(fēng)騷。Meta 在 9 月率先推出了 Make-A-Video,言簡意賅地表達了它的作用:做視頻。更具體地說,Make-A-Video 可以通過文本、圖片或者視頻來生成一個全新的視頻內(nèi)容,尤其是文本直接生成視頻,直接讓視頻創(chuàng)作的門檻大大降低,比如輸入「機器人在時代廣場跳舞」: 僅僅一周后,Google 也發(fā)布了自己的 AI 視頻擴散模型 Imagen Video。與 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——畫面分辨率可以達到 1280×768,幀率也能到 24 fps 了。不過,兩者實際上都還存在畫面不正常抖動、主體畸形、動作不夠流暢等問題,而且與之前推出文本生成圖像程序一樣,谷歌和 Meta 都沒有選擇對外開放,這也是為什么相比 AI 畫畫的流行,AI 生成視頻領(lǐng)域更多還是處在看熱鬧的階段——就像 2021 年的 AI 生成圖像。字節(jié)也看好 AI 視頻模型的未來,在抖音內(nèi)就支持了「圖文成片」功能,輸入一段文字,軟件智能匹配圖片素材、添加字幕、旁白和音樂,自動生成視頻。從一些創(chuàng)作者的反饋來看,目前「圖文成片」的實現(xiàn)還很初級,智能匹配和生成視頻兩個環(huán)節(jié)都很難真正在視頻生產(chǎn)環(huán)節(jié)中使用。當(dāng)下 AI 生成視頻在技術(shù)上顯然還不夠成熟,但最近幾年 AI 進化速度在肉眼可見地加快,很難想象今年 AI 視頻模型又會發(fā)生什么樣的質(zhì)變。不管 AI 視頻模型是否能在今年再度質(zhì)變,就如百度移動生態(tài)負(fù)責(zé)人何俊杰在 9 月的 2022 百度萬象大會上所說,「未來十年,AIGC 將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,創(chuàng)造出有獨特價值和獨立視角的內(nèi)容。」
可以預(yù)期,AIGC 將是 UGC 用戶生成內(nèi)容出現(xiàn)之后,又一個內(nèi)容生產(chǎn)的大變革,最直接的應(yīng)用就是大大降低視頻制作的成本和門檻,這也意味著為視頻內(nèi)容在供給側(cè)的大爆發(fā)提供了技術(shù)基礎(chǔ)。那場萬象大會上,百度就推出了基于文心 AI 大模型的「創(chuàng)作者 AI 助理團」,由 AI 文案、AI 畫師和 AI 視頻制作人組成。理想狀態(tài)下,借助「創(chuàng)作者 AI 助理團」,一個人就可以是一支視頻團隊。但顯然,現(xiàn)實是 AI 視頻生成還需要一些時間。ChatGPT,屬于AI的「初代iPhone」12 月初,OpenAI 發(fā)布了 ChatGPT——一個對話式 AI,發(fā)布后很快就在小范圍內(nèi)流行起來,隨后持續(xù)發(fā)酵并風(fēng)靡全網(wǎng)。從敲代碼、寫稿、寫詩、推薦到教你學(xué)英語、寫小說,甚至是一場類似人類之間的對談,ChatGPT 都表現(xiàn)出了驚人的語言對話能力。ChatGPT 甚至一度拉響了谷歌搜索的紅色警報。 用 ChatGPT 修 bug,圖/@amasad與 OpenAI 之前發(fā)布的產(chǎn)品不同,ChatGPT 選擇面向公眾大范圍公測,短短 5 天,其用戶注冊量就突破了百萬級,這在互聯(lián)網(wǎng)增長集體放緩的 2022 年多少有些不可思議。即便到了歲末年初,很多用戶依然在使用 ChatGPT 做報告、寫年終總結(jié)等事務(wù),可見其表現(xiàn)帶來的用戶粘性。ChatGPT 之所以脫穎而出,普遍認(rèn)為很大程度上是因為它采用了很自然的措辭進行對話,有網(wǎng)友評價其使用體驗「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT-3 的新版本 GPT-3.5 來進行對話,該版本擁有 1750 億個模型參數(shù)。事實上,從 GPT-3 引發(fā)全球范圍 AI 大模型的軍備競賽開始,這件事一定程度上就是巨頭之間的比拼。谷歌在 2021 年推出了萬億級參數(shù)的 AI 大模型——Switch Transformer,微軟和英偉達燒壞了 4480 塊 GPU 后,才開發(fā)出 5300 億參數(shù)的自然語言生成模型 MT-NLG(威震天-圖靈)。 根據(jù)媒體報道,GPT-3 訓(xùn)練的僅是硬件和電力成本就高達 1200 萬美元(約 7500 萬人民幣),GPT-3.5 應(yīng)該只高不少。目前 ChatGPT 仍然是免費使用,但顯然 OpenAI 不可能一直免費開放下去。另一個對話式 AI 的問題在于——自以為是。大量的用戶對話已經(jīng)證明,ChatGPT 的回答并不可靠,但它又經(jīng)常以令人信服的方式「胡說八道」。OpenAI 也承認(rèn),盡管 ChatGPT 生成的回答從語氣上已經(jīng)非常逼近真人,但有時仍會給出完全錯誤的答案。這不是在否認(rèn) ChatGPT 帶來的驚艷。Box CEO 亞倫·萊維認(rèn)為,「當(dāng)一種新技術(shù)已經(jīng)到了改變你對計算機的看法時,你會有一種特定的感覺。谷歌做到了,火狐做到了,AWS(亞馬遜)做到了,iPhone 做到了,OpenAI 正在通過 ChatGPT 做到這一點?!?/span>寫在最后過去十年,可以說互聯(lián)網(wǎng)和智能手機徹底改變了內(nèi)容的分發(fā)和消費環(huán)節(jié),但在內(nèi)容生產(chǎn)領(lǐng)域本質(zhì)上沒有過多的變化。而在過去一年,AIGC 已經(jīng)帶來了太多的變化,Stable Diffusion、Imagen Video 和 ChatGPT 分別對應(yīng)了最主要的內(nèi)容形式——圖像、視頻和文本。當(dāng)然,AIGC 還在面對很多挑戰(zhàn),包括版權(quán)、生成質(zhì)量不穩(wěn)定、創(chuàng)作主體爭論等,甚至 AI 生成視頻還沒有經(jīng)過大眾使用驗證。但現(xiàn)如今 AIGC 開始「飛入尋常百姓家」,已經(jīng)具備了成為一項大眾化技術(shù)的基礎(chǔ),未來很可能極大地提高內(nèi)容的生產(chǎn)效率和豐富度。從《太空歌劇院》獲得藝術(shù)大獎到今天,AI 的爭論依然沒有停止,但就如 Jason Allen 為自己的事件所做的總結(jié):AI 作畫程序已經(jīng)誕生,人們能做的只有承認(rèn)并接受這件事。
|