|
大模型就要沒(méi)彈藥了,訓(xùn)練數(shù)據(jù)成為大模型升級(jí)的最大攔路虎。 《紐約時(shí)報(bào)》報(bào)道,為了訓(xùn)練GPT4,OpenAI使用其旗下語(yǔ)音轉(zhuǎn)文字模型Whisper挖掘了超100萬(wàn)小時(shí)的YouTube數(shù)據(jù)作為其訓(xùn)練模型。而另一端,社交媒體巨頭Meta高層也在討論收購(gòu)出版社 Simon & Schuster來(lái)完成基礎(chǔ)模型對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)的需求。 但即使如此,現(xiàn)有人類社會(huì)生成的包含社交文本在內(nèi)的互聯(lián)網(wǎng)數(shù)據(jù)也不能夠支持大語(yǔ)言模型的優(yōu)化升級(jí)。研究機(jī)構(gòu)Epoch報(bào)告,在未來(lái)兩年內(nèi),AI訓(xùn)練將用盡互聯(lián)網(wǎng)上包含音視頻在內(nèi)的高質(zhì)量數(shù)據(jù)格式,而現(xiàn)存(包括未來(lái)生成的)數(shù)據(jù)集或?qū)⒃?030年至2060年之間耗盡。 除了物理世界現(xiàn)實(shí)存在的數(shù)據(jù),科技公司還考慮使用合成數(shù)據(jù)作為AI訓(xùn)練材料。合成數(shù)據(jù)就是用AI生成的數(shù)據(jù)訓(xùn)練大語(yǔ)言模型。不過(guò),合成數(shù)據(jù)也就意味著更高的計(jì)算費(fèi)用和人才支出,這也讓本就高昂的AI成本雪上加霜。 / 01 / 最優(yōu)的數(shù)據(jù),最好的大模型 據(jù)悉,GPT4有著超1.8萬(wàn)億參數(shù)和13萬(wàn)億token的訓(xùn)練數(shù)據(jù)。 13萬(wàn)億,相當(dāng)于自1962年開(kāi)始收集書(shū)籍的牛津大學(xué)博德利圖書(shū)館存儲(chǔ)的單詞數(shù)量的12.5倍。這些數(shù)據(jù)來(lái)源于新聞報(bào)道、數(shù)字書(shū)籍、Facebook社交平臺(tái)數(shù)據(jù)。不過(guò)在這之前,我們并不知道還有基于視頻轉(zhuǎn)錄的文字。據(jù)傳,Google模型也使用了Youtube轉(zhuǎn)譯的文字作為其大模型訓(xùn)練數(shù)據(jù)。 不止ChatGPT,市面上的大模型都是建立在上億級(jí)模型的訓(xùn)練基礎(chǔ)上的。谷歌的 BERT是在英語(yǔ)維基百科和BookCorpus中包含33億單詞的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,微軟的 Turing-NLG是在英語(yǔ)網(wǎng)頁(yè)中超過(guò)170億個(gè)詞組的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。 可以說(shuō),數(shù)據(jù)就是AI模型的燃料。根據(jù)標(biāo)度定律(scaling law),訓(xùn)練模型的數(shù)據(jù)越豐富,來(lái)源愈豐富、異質(zhì)化愈強(qiáng),模型的質(zhì)量越高,語(yǔ)義理解能力越強(qiáng)。這不難理解,AI就像是一個(gè)小孩,需要學(xué)習(xí)大量的課本、報(bào)道,而一個(gè)學(xué)生學(xué)習(xí)掌握的知識(shí)越多,一定程度上就越聰明,能處理的任務(wù)就越多。 大模型的數(shù)據(jù)訓(xùn)練是一個(gè)迭代的過(guò)程。2020年之前,大部分的AI模型數(shù)據(jù)量相對(duì)較小,大多在1000萬(wàn)以下。舉個(gè)例子,GPT2的訓(xùn)練數(shù)據(jù)就是40G,GPT3的訓(xùn)練數(shù)據(jù)則高達(dá)570G,約為GPT2的15倍。高達(dá)3000億token的GPT3開(kāi)啟了大語(yǔ)言模型千億級(jí)token訓(xùn)練的先河。 大語(yǔ)言模型訓(xùn)練數(shù)據(jù)規(guī)模 數(shù)據(jù)規(guī)模固然重要,但數(shù)據(jù)質(zhì)量也同樣不容忽視,有失偏頗的數(shù)據(jù)可能會(huì)造成潛在的刻板歧視和偏見(jiàn),比如最近引起巨大爭(zhēng)議的Meta圖像生成案,不能生成白人女性和亞洲男性同框的圖像。 Meta圖像生成器拒絕生成亞洲男性和白人女性的圖片 所以,AI的訓(xùn)練數(shù)據(jù)不僅強(qiáng)調(diào)量大,更強(qiáng)調(diào)樣本的異質(zhì)性,代表的多樣性。OpenA負(fù)責(zé)人Peter Deng就曾說(shuō)過(guò),訓(xùn)練AI的數(shù)據(jù)最好能夠體現(xiàn)不同民族、不同文化的價(jià)值觀,大模型發(fā)展應(yīng)該避免民族中心主義和文化霸權(quán),特定來(lái)源的訓(xùn)練材料總是有失偏頗的。 最優(yōu)的大模型需要最好的數(shù)據(jù),但是數(shù)據(jù)也不是天上掉下來(lái)的免費(fèi)午餐。隨著模型升級(jí)和巨頭之間的科技軍備賽的白熱化,限制LLM發(fā)展的最大攔路虎不再是技術(shù)本身,而是最關(guān)鍵的也是最容易忽略的因素——數(shù)據(jù)。 / 02 / 供不應(yīng)求,LLM訓(xùn)練遭遇數(shù)據(jù)困境 現(xiàn)階段的AI訓(xùn)練數(shù)據(jù)主要包括新聞報(bào)道、虛構(gòu)作品、留言板帖子、維基百科文章、計(jì)算機(jī)程序、照片和播客,比如common crawl,一家從2007年以來(lái)收集了超2500億網(wǎng)頁(yè)文章的數(shù)據(jù)庫(kù),有1000TB的數(shù)據(jù)量。 當(dāng)下的LLM數(shù)據(jù)困境,主要體現(xiàn)在兩個(gè)方面: 一是高質(zhì)量數(shù)據(jù)的規(guī)模有限。高質(zhì)量數(shù)據(jù)通常包括出版書(shū)籍、文學(xué)作品、學(xué)術(shù)論文、學(xué)校課本、權(quán)威媒體的新聞報(bào)道、維基百科、百度百科等,經(jīng)過(guò)時(shí)間、人類驗(yàn)證過(guò)的文本、視頻、音頻等數(shù)據(jù)。 與大模型訓(xùn)練數(shù)據(jù)規(guī)模每年翻倍不同,這些高質(zhì)量數(shù)據(jù)的增長(zhǎng)非常緩慢。以出版社書(shū)籍為例,需要經(jīng)過(guò)市場(chǎng)調(diào)研、初稿、編輯、再審等繁瑣流程,耗費(fèi)幾個(gè)月甚至幾年時(shí)間才能出版一本書(shū)。這意味著,高質(zhì)量數(shù)據(jù)的產(chǎn)出速度,遠(yuǎn)遠(yuǎn)落后大模型訓(xùn)練數(shù)據(jù)需求的增長(zhǎng)。 研究機(jī)構(gòu)Epoch稱,科技公司或?qū)⒃?026年使用完互聯(lián)網(wǎng)上所有可用于模型訓(xùn)練的高質(zhì)量數(shù)據(jù),包括維基百科、學(xué)術(shù)期刊論文等高質(zhì)量數(shù)據(jù)文本。同時(shí),AI公司使用數(shù)據(jù)的速度比社會(huì)生成數(shù)據(jù)的速度要快,該機(jī)構(gòu)預(yù)計(jì)在2030-2060年之間,能用于AI訓(xùn)練的人類數(shù)據(jù)將會(huì)全部耗盡。 除了高質(zhì)量數(shù)據(jù)本身有限外,這些數(shù)據(jù)獲得難度也在大大提升。由于擔(dān)心平補(bǔ)償?shù)葐?wèn)題,社交媒體平臺(tái)、新聞出版商和其他公司一直在限制AI公司,使用自家平臺(tái)數(shù)據(jù)進(jìn)行人工智能訓(xùn)練。 去年7月,Reddit 就表示將大幅提高訪問(wèn)其 API 的費(fèi)用。該公司的管理人員表示,這些變化是對(duì)人工智能公司竊取其數(shù)據(jù)的回應(yīng)。Reddit 創(chuàng)始人兼首席執(zhí)行官 Steve Huffman 告訴《紐約時(shí)報(bào)》:「Reddit 的數(shù)據(jù)庫(kù)真的很有價(jià)值?!埂傅覀儾恍枰阉羞@些價(jià)值都免費(fèi)提供給一些全球最大的公司。」 此前,OpenAI也曾因未經(jīng)授權(quán)使用新聞報(bào)道與《紐約時(shí)報(bào)》打了官司,英偉達(dá)也因未經(jīng)授權(quán)使用原創(chuàng)小說(shuō)遭到美國(guó)作家的聯(lián)合訴訟。 總的來(lái)說(shuō),大模型企業(yè)已經(jīng)基本上搜刮了電子數(shù)據(jù)、新聞報(bào)道、社交媒體數(shù)據(jù)等所有能夠想到的數(shù)據(jù)來(lái)源。而部分明確受到保護(hù)的版權(quán)作品,科技巨頭在短時(shí)間內(nèi)也難以征得其訓(xùn)練版權(quán)。同時(shí),高昂的版權(quán)費(fèi)可能也會(huì)目令前盈利能力微弱的AI公司捉襟見(jiàn)肘。 在這種情況下,科技巨頭紛紛殫精竭慮尋找優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)喂給自身模型,也就有了OpenAI采集超百萬(wàn)小時(shí)YouTube數(shù)據(jù),為GPT-4提供訓(xùn)練素材的故事了。 據(jù)了解,OpenAI的數(shù)據(jù)收集策略并不僅限于YouTube視頻。該公司還從Github的計(jì)算機(jī)代碼、國(guó)際象棋走棋數(shù)據(jù)庫(kù)以及Quizlet的作業(yè)內(nèi)容中獲取數(shù)據(jù)。OpenAI發(fā)言人Lindsay Held在一封電子郵件中透露,公司為其每個(gè)模型都策劃了獨(dú)特的數(shù)據(jù)集,以保持其全球研究競(jìng)爭(zhēng)力。 在最近的一次高層管理會(huì)議中,Meta高管甚至還建議收購(gòu)出版社 Simon & Schuster以采購(gòu)包括史蒂芬金等知名作家作品在內(nèi)的長(zhǎng)篇小說(shuō)為其AI模型提供訓(xùn)練數(shù)據(jù)。 出于法律風(fēng)險(xiǎn)、成本等因素的考量,越來(lái)越多公司開(kāi)始嘗試自己制作的訓(xùn)練數(shù)據(jù)——合成數(shù)據(jù)。 / 03 / AI合成,會(huì)是模型訓(xùn)練的救命稻草嗎? 合成數(shù)據(jù)是一種通過(guò)算法或計(jì)算機(jī)模型生成的數(shù)據(jù),它模擬實(shí)際情況,但無(wú)需通過(guò)收集實(shí)際數(shù)據(jù)來(lái)實(shí)現(xiàn),而是讓AI自己生成文本、圖像、代碼再反哺給自己的訓(xùn)練系統(tǒng),生成現(xiàn)實(shí)世界中難以獲取的數(shù)據(jù)。 這并不是一個(gè)新的概念。合成數(shù)據(jù)在自動(dòng)駕駛等領(lǐng)域有著廣泛應(yīng)用。比如,車企可以通過(guò)合成數(shù)據(jù)模擬真實(shí)的駕駛場(chǎng)景,為自動(dòng)駕駛系統(tǒng)提供大量訓(xùn)練數(shù)據(jù)。 使用合成數(shù)據(jù)的好處顯而易見(jiàn)。一方面,合成數(shù)據(jù)可以降低人工收集、處理和標(biāo)注的成本,提高模型訓(xùn)練的效率。同時(shí),合成數(shù)據(jù)一定程度上也突破了非平臺(tái)企業(yè)的數(shù)據(jù)瓶頸。一直以來(lái),X、Meta、Instagram等社交平臺(tái)的用戶數(shù)據(jù)都被微軟、谷歌幾家大頭壟斷。初創(chuàng)公司和小微企業(yè)難以獲得訓(xùn)練自己的AI模型,而合成數(shù)據(jù)可以通過(guò)模擬物理世界的真實(shí)行為合成這些數(shù)據(jù),從而降低了初創(chuàng)公司訓(xùn)練大語(yǔ)言模型的成本。 但與此同時(shí),合成數(shù)據(jù)的缺點(diǎn)也明顯。作為一種數(shù)據(jù)建模解決方案,AI合成數(shù)據(jù)最大的特征是“全面控制”,從代碼到算法到微調(diào),程序員可以模擬、調(diào)控?cái)?shù)據(jù)生成的整個(gè)過(guò)程。這也就意味著,合成數(shù)據(jù)最大的問(wèn)題是“有失偏頗”。 相比垂直大模型,通用大模型更加強(qiáng)調(diào)數(shù)據(jù)的異質(zhì)化、差異性和多樣性。但在現(xiàn)階段,AI的智能程度還難以生成具備多樣性、代表性、高質(zhì)量的訓(xùn)練數(shù)據(jù),畢竟機(jī)器生成的數(shù)據(jù)底層邏輯基于人類程序員的設(shè)計(jì),難以反映出大千世界的多元文化。 具體來(lái)說(shuō),建立在合成數(shù)據(jù)上的大語(yǔ)言模型不可避免地帶有內(nèi)嵌的機(jī)器學(xué)習(xí)思維,而訓(xùn)練數(shù)據(jù)中合成數(shù)據(jù)的占比越大,自然語(yǔ)言理解能力或許就越低。這也是AI界固有存在的hallucination幻覺(jué)問(wèn)題,即生成與人工指令prompt不符的胡言亂語(yǔ)。 更不用說(shuō),大模型還不可避免地帶有人類社會(huì)固有的偏見(jiàn)(比如種族歧視、文化霸權(quán)等),比如今年二月份谷歌通用人工智能助手生成的黑人納粹軍隊(duì)圖像。如果基于已經(jīng)存在其實(shí)的模型數(shù)據(jù)繼續(xù)訓(xùn)練,生成的數(shù)據(jù)可能會(huì)進(jìn)一步放大這種誤差與偏見(jiàn)。 可以說(shuō),AI始于數(shù)據(jù),也困于數(shù)據(jù)。在高質(zhì)量數(shù)據(jù)受到版權(quán)壓力,合成數(shù)據(jù)面臨質(zhì)量爭(zhēng)議的情況下,大模型訓(xùn)練將面臨更多的考驗(yàn)。 不過(guò)好在大模型企業(yè)仍然對(duì)合成數(shù)據(jù)的應(yīng)用前景表示樂(lè)觀。據(jù)了解,OpenAI和Anthropic的研究人員正試圖通過(guò)創(chuàng)建所謂的更高質(zhì)量的合成數(shù)據(jù)來(lái)避免這些問(wèn)題。在最近的一次采訪中,Anthropic的首席科學(xué)家JaredKaplan表示,某些類型的合成數(shù)據(jù)可能會(huì)有所幫助。 未來(lái),大模型的數(shù)據(jù)困境將會(huì)從何突破,我們將會(huì)持續(xù)關(guān)注。
|
|
|