【原】制霸抖音，干掉谷歌搜索？AIGC在2022晉升「頂流」

雷科技 2023-01-13 發(fā)布于廣東

展開全文

來源：雷科技互聯(lián)網(wǎng)組

編輯：冬日果醬

排版：LIN

就在本月，WSJ 引述知情人士稱，作為 2022 年爆紅的聊天機器人 ChatGPT 背后的公司，OpenAI 正在談判以收購要約的形式出售現(xiàn)有股份，這起交易對 OpenAI 的估值達到 290 億美元左右。在 2021 年的一場交易中，OpenAI 的估值還只是在 140 億美元左右。

估值高漲的背后不只是因為 ChatGPT，OpenAI 旗下另一個 AI 生成圖像模型——DALL-E 2 同樣展現(xiàn)了生成式 AI 的能力可以有多高。2022 年，從 Stable Diffusion 以開源形式引爆 AI 創(chuàng)作，到 GPTChat 一周內(nèi)就突破了百萬級用戶注冊，全球出現(xiàn)了無數(shù)生成式 AI 的產(chǎn)品和創(chuàng)業(yè)公司，文本、圖像乃至視頻，掀起了巨大的 AIGC（人工智能生成內(nèi)容）浪潮。

AI 繪畫，圖/抖音

基于 Stable Diffusion 開源模型，字節(jié)也推出 2022 抖音年度爆款「AI 繪畫」，統(tǒng)計顯示有 2758.3 萬人使用過這款特效。抖音和快手都看到了 AIGC 技術(shù)在圖像應(yīng)用上的巨大價值，快手對 AIGC 的布局也證實了這一點。快手在 11 月聯(lián)合百度 AI 數(shù)字人希加加、度曉曉等發(fā)布短視頻，進行 24 小時 AI 直播，還通過 AIGC 技術(shù)進行作畫、寫詩、寫歌詞等。

6 月，一位谷歌高級軟件工程師甚至聲稱，谷歌開發(fā)的對話式 AI LaMDA「有意識、有靈魂」，但隨后很快被谷歌否認(rèn)。而在一個月前，谷歌剛剛在 2022 年 I/O 大會上公布了 LaMDA2，稱其為谷歌有史以來最先進的對話式 AI，與年底紅遍全球的 ChatGPT 有著相同的語言模型技術(shù)和原生應(yīng)用場景。

12 月 16 日，知名學(xué)術(shù)期刊《科學(xué)》雜志公布了 2022 年十大科學(xué)突破，記錄一年里最重大的科學(xué)發(fā)現(xiàn)、進展和趨勢，其中一項就是「AI 具備創(chuàng)造力」。用我們更熟悉的詞就是：AIGC，即基于 AI 能力的內(nèi)容創(chuàng)作。

當(dāng) AI 開始擁有大規(guī)模創(chuàng)造內(nèi)容的能力，很多事情都可能被顛覆。

AI作畫開始大眾化

圖/OpenAI

2022 年 4 月，人工智能研究公司 OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2，隨后一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網(wǎng)絡(luò)。

相比前代，DALL-E 2 生成圖像有了更高的分辨率和更低的延遲，同樣基于用戶描述文本進行生成。不過和之前 OpenAI 推出的產(chǎn)品一樣，DALL-E 2 開始并不對外開放，僅限部分研究人員注冊使用該程序，一直到 9 月才宣布向公眾開放使用，每月僅限 15 個免費圖像。

這也為下半年 Stable Diffusion 的爆火和流行提供了機會。如果說上半年最火的「AI 畫師」當(dāng)屬 DALL-E 2 和 Midjourney，8 月 22 日 Stable Diffusion 發(fā)布之后基本就成了「AI 畫師」的代名詞。

在目前的三大 AI 圖像模型中，Stable Diffusion 誕生得最晚，但由于發(fā)展良好的開源社區(qū)，它的用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E。任何人都可以免費使用，任何公司也可以基于開源項目定制自己的 AI 生成圖像程序。

「一個不在乎人工智能爭論的老藝術(shù)家」，圖/DrMacabre68

「我們已經(jīng)看到 3 歲到 90 歲的人第一次開始創(chuàng)作?！筍tabilityAI CEO Emad Mostaque 在一次采訪中說，該公司資助了 Stable Diffusion 的開發(fā)。在海外知名論壇 Reddit 的「StableDiffusion」板塊下，每天都有用戶分享通過 Stable Diffusion 生成新的圖像作品。

到現(xiàn)在「AI 畫師」已經(jīng)可以走入千家萬戶。用戶可以在本地部署，普通消費級顯卡就能滿足硬件要求，也可以直接輸入一串網(wǎng)址，直接輸入描述文本開始創(chuàng)作，這是 2021 年 DALL-E 初代發(fā)布的時候不敢想的。

不僅如此，「AI 畫師」出現(xiàn)和流行也在 2022 年挑戰(zhàn)人類的美術(shù)和圖片產(chǎn)業(yè)。

9 月，全球最大圖庫蓋蒂圖片社（Getty Images）宣布禁止上傳和銷售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 藝術(shù)工具生成的插圖。蓋蒂認(rèn)為 AI 產(chǎn)生的圖片并非是一種人類創(chuàng)造性的藝術(shù)品。

《太空歌劇院》，圖/Jason Allen

同月，游戲公司 CEO 兼游戲設(shè)計師 Jason Allen 通過 Midjourney 生成的《太空歌劇院》，在美國科羅拉多州博覽會舉辦的藝術(shù)展中一舉奪得數(shù)字藝術(shù)組大獎。

但這次獲獎也引起了廣泛的爭論，有人認(rèn)為這對其他自己創(chuàng)作的人不公平，「這就跟為什么我們不讓機器人參加奧運會的原因完全一樣?！箙⒓釉u審的藝術(shù)家杜蘭（Cal Duran）甚至表示，他在評分的時候根本沒意識到這幅畫由 AI 生成。

相比之下，百度更加務(wù)實，一開始就確定了自己「輔助」定位。8 月，百度基于自身的文心大模型也推出了AI 繪畫平臺「文心一格」，更明確定位為面向有設(shè)計需求和創(chuàng)意的人群，基于文心大模型智能生成多樣化AI創(chuàng)意圖片，輔助創(chuàng)作者的創(chuàng)意設(shè)計。

在技術(shù)之外，AI 生成圖像還在探索如何解決版權(quán)等一系列問題。

用嘴做視頻？還要再等等

作為 AI 大廠，Meta 和谷歌實際上沒有缺席任何一個重要的 AI 技術(shù)，在 AI 視頻生成上更是獨領(lǐng)風(fēng)騷。

Meta 在 9 月率先推出了 Make-A-Video，言簡意賅地表達了它的作用：做視頻。更具體地說，Make-A-Video 可以通過文本、圖片或者視頻來生成一個全新的視頻內(nèi)容，尤其是文本直接生成視頻，直接讓視頻創(chuàng)作的門檻大大降低，比如輸入「機器人在時代廣場跳舞」：

圖/Meta

僅僅一周后，Google 也發(fā)布了自己的 AI 視頻擴散模型 Imagen Video。與 Make-A-Video 相比，Imagen Video 最直接的感受就是清晰度更高——畫面分辨率可以達到 1280×768，幀率也能到 24 fps 了。

不過，兩者實際上都還存在畫面不正常抖動、主體畸形、動作不夠流暢等問題，而且與之前推出文本生成圖像程序一樣，谷歌和 Meta 都沒有選擇對外開放，這也是為什么相比 AI 畫畫的流行，AI 生成視頻領(lǐng)域更多還是處在看熱鬧的階段——就像 2021 年的 AI 生成圖像。

字節(jié)也看好 AI 視頻模型的未來，在抖音內(nèi)就支持了「圖文成片」功能，輸入一段文字，軟件智能匹配圖片素材、添加字幕、旁白和音樂，自動生成視頻。從一些創(chuàng)作者的反饋來看，目前「圖文成片」的實現(xiàn)還很初級，智能匹配和生成視頻兩個環(huán)節(jié)都很難真正在視頻生產(chǎn)環(huán)節(jié)中使用。

當(dāng)下 AI 生成視頻在技術(shù)上顯然還不夠成熟，但最近幾年 AI 進化速度在肉眼可見地加快，很難想象今年 AI 視頻模型又會發(fā)生什么樣的質(zhì)變。

不管 AI 視頻模型是否能在今年再度質(zhì)變，就如百度移動生態(tài)負(fù)責(zé)人何俊杰在 9 月的 2022 百度萬象大會上所說，「未來十年，AIGC 將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式，可以實現(xiàn)以十分之一的成本，以百倍千倍的生產(chǎn)速度，創(chuàng)造出有獨特價值和獨立視角的內(nèi)容。」

可以預(yù)期，AIGC 將是 UGC 用戶生成內(nèi)容出現(xiàn)之后，又一個內(nèi)容生產(chǎn)的大變革，最直接的應(yīng)用就是大大降低視頻制作的成本和門檻，這也意味著為視頻內(nèi)容在供給側(cè)的大爆發(fā)提供了技術(shù)基礎(chǔ)。

那場萬象大會上，百度就推出了基于文心 AI 大模型的「創(chuàng)作者 AI 助理團」，由 AI 文案、AI 畫師和 AI 視頻制作人組成。理想狀態(tài)下，借助「創(chuàng)作者 AI 助理團」，一個人就可以是一支視頻團隊。

但顯然，現(xiàn)實是 AI 視頻生成還需要一些時間。

ChatGPT，

屬于AI的「初代iPhone」

12 月初，OpenAI 發(fā)布了 ChatGPT——一個對話式 AI，發(fā)布后很快就在小范圍內(nèi)流行起來，隨后持續(xù)發(fā)酵并風(fēng)靡全網(wǎng)。從敲代碼、寫稿、寫詩、推薦到教你學(xué)英語、寫小說，甚至是一場類似人類之間的對談，ChatGPT 都表現(xiàn)出了驚人的語言對話能力。

ChatGPT 甚至一度拉響了谷歌搜索的紅色警報。

用 ChatGPT 修 bug，圖/@amasad

與 OpenAI 之前發(fā)布的產(chǎn)品不同，ChatGPT 選擇面向公眾大范圍公測，短短 5 天，其用戶注冊量就突破了百萬級，這在互聯(lián)網(wǎng)增長集體放緩的 2022 年多少有些不可思議。即便到了歲末年初，很多用戶依然在使用 ChatGPT 做報告、寫年終總結(jié)等事務(wù)，可見其表現(xiàn)帶來的用戶粘性。

ChatGPT 之所以脫穎而出，普遍認(rèn)為很大程度上是因為它采用了很自然的措辭進行對話，有網(wǎng)友評價其使用體驗「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT-3 的新版本 GPT-3.5 來進行對話，該版本擁有 1750 億個模型參數(shù)。

事實上，從 GPT-3 引發(fā)全球范圍 AI 大模型的軍備競賽開始，這件事一定程度上就是巨頭之間的比拼。谷歌在 2021 年推出了萬億級參數(shù)的 AI 大模型——Switch Transformer，微軟和英偉達燒壞了 4480 塊 GPU 后，才開發(fā)出 5300 億參數(shù)的自然語言生成模型 MT-NLG（威震天-圖靈）。

「錢」，圖/英偉達

根據(jù)媒體報道，GPT-3 訓(xùn)練的僅是硬件和電力成本就高達 1200 萬美元（約 7500 萬人民幣），GPT-3.5 應(yīng)該只高不少。目前 ChatGPT 仍然是免費使用，但顯然 OpenAI 不可能一直免費開放下去。

另一個對話式 AI 的問題在于——自以為是。大量的用戶對話已經(jīng)證明，ChatGPT 的回答并不可靠，但它又經(jīng)常以令人信服的方式「胡說八道」。OpenAI 也承認(rèn)，盡管 ChatGPT 生成的回答從語氣上已經(jīng)非常逼近真人，但有時仍會給出完全錯誤的答案。

這不是在否認(rèn) ChatGPT 帶來的驚艷。Box CEO 亞倫·萊維認(rèn)為，「當(dāng)一種新技術(shù)已經(jīng)到了改變你對計算機的看法時，你會有一種特定的感覺。谷歌做到了，火狐做到了，AWS（亞馬遜）做到了，iPhone 做到了，OpenAI 正在通過 ChatGPT 做到這一點?！?/span>

寫在最后

過去十年，可以說互聯(lián)網(wǎng)和智能手機徹底改變了內(nèi)容的分發(fā)和消費環(huán)節(jié)，但在內(nèi)容生產(chǎn)領(lǐng)域本質(zhì)上沒有過多的變化。而在過去一年，AIGC 已經(jīng)帶來了太多的變化，Stable Diffusion、Imagen Video 和 ChatGPT 分別對應(yīng)了最主要的內(nèi)容形式——圖像、視頻和文本。

當(dāng)然，AIGC 還在面對很多挑戰(zhàn)，包括版權(quán)、生成質(zhì)量不穩(wěn)定、創(chuàng)作主體爭論等，甚至 AI 生成視頻還沒有經(jīng)過大眾使用驗證。但現(xiàn)如今 AIGC 開始「飛入尋常百姓家」，已經(jīng)具備了成為一項大眾化技術(shù)的基礎(chǔ)，未來很可能極大地提高內(nèi)容的生產(chǎn)效率和豐富度。

從《太空歌劇院》獲得藝術(shù)大獎到今天，AI 的爭論依然沒有停止，但就如 Jason Allen 為自己的事件所做的總結(jié)：AI 作畫程序已經(jīng)誕生，人們能做的只有承認(rèn)并接受這件事。

題圖來自 StabilityAI