所以,在人類數(shù)據(jù)越來越少的情況下,AI 訓(xùn)練真的沒機(jī)會(huì)了嗎?并不是,用于訓(xùn)練 AI 數(shù)據(jù)枯竭的問題,還有方法能解決:
數(shù)據(jù)「隔離」
隨著 AI 越來越強(qiáng)大,已經(jīng)有越來越多的人開始使用 AI 輔助自己工作,互聯(lián)網(wǎng)上的 AIGC 爆炸式增長,「干凈的人類數(shù)據(jù)集」可能會(huì)越來越難以找到。谷歌深度學(xué)習(xí)研究部門谷歌大腦 Google Brain 的高級(jí)研究科學(xué)家 Daphne Ippolito 就表示,在未來,要找到高質(zhì)量、有保證的無人工智能訓(xùn)練數(shù)據(jù)將變得越來越棘手。這就好比是一個(gè)患有高危遺傳病的人類始祖,但是又擁有極其強(qiáng)大的繁殖能力。在短時(shí)間內(nèi)他就把子孫繁衍到了地球每一個(gè)角落。然后在某一時(shí)刻,遺傳病爆發(fā),人類全體滅絕。為了解決「模型崩潰」,研究團(tuán)隊(duì)提出的一種方法是「先行者優(yōu)勢」,也就是保留對(duì)干凈的人工生成數(shù)據(jù)源的訪問,將 AIGC 與之分隔開來。同時(shí),這需要很多社區(qū)和公司聯(lián)合起來,共同保持人類數(shù)據(jù)不受 AIGC 污染。不過,人類數(shù)據(jù)的稀缺意味著這其中有利可圖,已經(jīng)有一些公司行動(dòng)起來了。Reddit 就表示將大幅提高訪問其 API 的費(fèi)用。該公司的管理人員表示,這些變化 (在一定程度上) 是對(duì)人工智能公司竊取其數(shù)據(jù)的回應(yīng)。Reddit 創(chuàng)始人兼首席執(zhí)行官 Steve Huffman 告訴《紐約時(shí)報(bào)》:「Reddit 的數(shù)據(jù)庫真的很有價(jià)值?!埂傅覀儾恍枰阉羞@些價(jià)值都免費(fèi)提供給一些全球最大的公司。」
合成數(shù)據(jù)
同時(shí),專業(yè)基于 AI 生成的數(shù)據(jù),早已有效用于 AI 的訓(xùn)練。在一些從業(yè)者看來,現(xiàn)在擔(dān)心 AI 生成的數(shù)據(jù)會(huì)導(dǎo)致模型崩潰,多少有點(diǎn)「標(biāo)題黨」。光輪智能創(chuàng)始人謝晨告訴極客公園,國外論文提到的,用 AI 生成數(shù)據(jù)訓(xùn)練 AI 模型導(dǎo)致崩潰,實(shí)驗(yàn)方法比較偏頗。即便是人類數(shù)據(jù),也有能用和不能用之分,而論文提到的實(shí)驗(yàn),則是不加分辨地直接用來訓(xùn)練,而并非有針對(duì)性的經(jīng)過質(zhì)檢、效用性判定后作為訓(xùn)練數(shù)據(jù),顯然有可能會(huì)造成模型崩潰。謝晨透露,其實(shí) OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生產(chǎn)的數(shù)據(jù)來進(jìn)行訓(xùn)練。Sam Altman 也在近期的采訪中表達(dá),合成數(shù)據(jù)是解決大模型數(shù)據(jù)短缺的有效方法。而其中的關(guān)鍵在于,有一整套體系來區(qū)分 AI 生成的數(shù)據(jù)中,哪些可用,哪些不可用,并不斷根據(jù)訓(xùn)練后模型的效果進(jìn)行反饋——這是 OpenAI 能笑傲 AI 江湖的絕招之一,這家公司并不只是融的錢多,買的算力多這么簡單而已。在 AI 行業(yè)內(nèi),使用合成數(shù)據(jù)來進(jìn)行模型訓(xùn)練,早已經(jīng)成為一個(gè)尚未為外人所知的共識(shí)。曾經(jīng)在英偉達(dá)、Cruise和蔚來等公司負(fù)責(zé)自動(dòng)駕駛仿真的謝晨認(rèn)為,以目前各種大模型訓(xùn)練的數(shù)據(jù)量來看,未來 2-3 年,人類數(shù)據(jù)確實(shí)有可能「枯竭」,但是基于專業(yè)化體系和方法,AI 生成的合成數(shù)據(jù),會(huì)成為用之不竭的有效數(shù)據(jù)來源。并且使用場景并不局限于文字和圖片,像自動(dòng)駕駛、機(jī)器人等行業(yè)需要的合成數(shù)據(jù)量,將遠(yuǎn)遠(yuǎn)大于文本的數(shù)據(jù)量。AI 三要素,數(shù)據(jù)、算力、算法,數(shù)據(jù)來源有著落了,算法大模型在不斷進(jìn)化,唯一剩下的算力壓力,相信英偉達(dá)創(chuàng)始人黃仁勛是可以順利解決的。*圖片來源:The Verge 本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO 溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平臺(tái)推送規(guī)則調(diào)整,有時(shí)候看不到我們的文章~