电竞比分网-中国电竞赛事及体育赛事平台

分享

Andrej Karpathy最新采訪:AI仍處在模仿階段,離自主學(xué)習(xí)還很遠(yuǎn)

 硅基觀察Pro 2024-03-28 發(fā)布于北京

在紅杉資本2024年的AI Ascent上,Andrej Karpathy與紅杉資本合伙人Stephanie Zhan深入探討了AI的未來發(fā)展方向和對(duì)初創(chuàng)企業(yè)生態(tài)系統(tǒng)的影響。Andrej Karpathy曾是OpenAI創(chuàng)始成員、前特斯拉人工智能高級(jí)總監(jiān)。

在Andrej看來,Llama 和 Mistral 并不算真正意義上的開源,更像是一個(gè)二進(jìn)制文件。同時(shí),Andrej分享了他與埃隆·馬斯克共事的經(jīng)驗(yàn),揭示了馬斯克獨(dú)特的管理風(fēng)格和對(duì)小而精技術(shù)團(tuán)隊(duì)的偏好。他還討論了AI技術(shù)的現(xiàn)狀,指出目前AI仍處于模仿學(xué)習(xí)的初級(jí)階段,距離實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的目標(biāo)還有一段距離。

在與觀眾的互動(dòng)環(huán)節(jié)中,他回答了關(guān)于模型合成、企業(yè)理念、以及如何平衡性能與成本的問題,并強(qiáng)調(diào)當(dāng)下的AI發(fā)展應(yīng)先追求大模型性能,再考慮降低成本。

目錄:

一、LLMOS:免費(fèi)、高效的的 LLM API平臺(tái)

二、馬斯克的企業(yè)理念:小而精的技術(shù)團(tuán)隊(duì)

三、初創(chuàng)公司:讓AI生態(tài)充滿活力

四、AI界的研究生院:Reinforcement Learning強(qiáng)化學(xué)習(xí)

五、開源,讓AI觸手可及

/ 01 / LLM OS:免費(fèi)、高效的的 LLM API平臺(tái)

Stephen Zhan:Andrej,您如何看待AGI在未來的前景?

Andrej Karpathy:幾年前,我還不清楚 AGI 會(huì)如何發(fā)展。它非常學(xué)術(shù)化,你需要思考不同的方法。而現(xiàn)在,我覺得它非常清晰,有很多空間,每個(gè)人都在努力去填補(bǔ)。因此,需要進(jìn)行大量的優(yōu)化。

粗略地說,現(xiàn)在的情況是,每個(gè)人都在努力構(gòu)建我所說的 LLmOS,為開發(fā)人員提供免費(fèi)、快速的 LLM API。它像一個(gè)操作系統(tǒng),可以把一堆外設(shè)插入這個(gè)新的 CPU 或類似的東西。當(dāng)然,這些外設(shè)包括文本、圖像、音頻和所有模式。然后是中央處理器,也就是 LLM 變壓器本身。然后,它還與我們已經(jīng)建立起來的所有軟件1.0 基礎(chǔ)設(shè)施相連。因此,我認(rèn)為每個(gè)人都在努力構(gòu)建類似的東西,然后將其作為可定制的東西提供給經(jīng)濟(jì)領(lǐng)域的各個(gè)角落。

這大致就是我們的方向。我們可以給相對(duì)獨(dú)立的AI代理分配高級(jí)任務(wù),并以各種方式進(jìn)行專業(yè)化。這將是非常有趣和令人興奮的。這不僅僅是一個(gè)代理。而是許多代理。

Stephen Zhan:我想談?wù)勔恍┰趫?chǎng)都關(guān)心的事,那就是 OpenAI 正在主導(dǎo)生態(tài)系統(tǒng)。今天在座的大多數(shù)聽眾都是創(chuàng)始人,他們正試圖開辟一個(gè)小天地,祈禱OpenAI不會(huì)在一夜之間將他們淘汰出局。你認(rèn)為其他參與者在哪些領(lǐng)域有機(jī)會(huì)建立新的獨(dú)立公司?而OpenAI會(huì)在哪些領(lǐng)域繼續(xù)占據(jù)主導(dǎo)地位?

Andrej Karpathy:OpenAI基本上是在試圖建立LLmOS。我認(rèn)為,正如我們今天早些時(shí)候聽到的那樣,它正試圖開發(fā)這個(gè)平臺(tái),在這個(gè)平臺(tái)之上,你可以定位不同垂直領(lǐng)域的不同公司?,F(xiàn)在,我認(rèn)為操作系統(tǒng)的比喻也非常有趣。

因?yàn)楫?dāng)你看到像 Windows的操作系統(tǒng),它會(huì)自帶一些默認(rèn)應(yīng)用程序,比如Edge 瀏覽器。所以,OpenAI 或其他大模型公司也會(huì)以同樣的方式推出一些默認(rèn)應(yīng)用程序,但這并不意味著你可以在其上運(yùn)行不同的瀏覽器,就像你可以在該基礎(chǔ)設(shè)施上運(yùn)行不同的聊天代理一樣。因此,會(huì)有一些默認(rèn)應(yīng)用程序,但也可能會(huì)有一個(gè)由各種應(yīng)用程序組成的充滿活力的基礎(chǔ)設(shè)施生態(tài)系統(tǒng),這些應(yīng)用程序會(huì)根據(jù)經(jīng)濟(jì)的不同角落進(jìn)行微調(diào)。我很喜歡早期 iPhone 應(yīng)用程序的比喻,它們看起來就像笑話。

這需要時(shí)間來發(fā)展,我想我絕對(duì)同意,我們現(xiàn)在正經(jīng)歷著同樣的事情。人們正試圖弄明白,這東西到底擅長(zhǎng)什么?它不擅長(zhǎng)什么?我該如何使用它?如何編程?如何調(diào)試?我怎樣才能讓它真正執(zhí)行實(shí)際任務(wù),以及怎樣對(duì)它進(jìn)行監(jiān)督?評(píng)估是什么樣的?有很多事情需要思考,也需要了解其中的心理學(xué)原理。我認(rèn)為,這需要一些時(shí)間來弄清如何與這一基礎(chǔ)設(shè)施協(xié)同工作。我們會(huì)在未來幾年看到這一點(diǎn)。

Stephen Zhan:現(xiàn)在正在進(jìn)行的是LLMs領(lǐng)域 OpenAI、Anthropic、Mistral、Llama、Gemini 的競(jìng)賽。開源模型的整個(gè)生態(tài)系統(tǒng)現(xiàn)在已經(jīng)成為小型模型的長(zhǎng)尾。你如何預(yù)見生態(tài)系統(tǒng)的未來?

Andrej Karpathy:這和操作系統(tǒng)很像,因?yàn)殡娔X的操作系統(tǒng)也被寡頭壟斷了,比如 Windows、Mac OS 等。我認(rèn)為,大模型也許未來會(huì)出現(xiàn)類似的情況。

在我看來,你列舉的許多產(chǎn)品,如 Llama 和 Mistral 等不算是開源。他們有點(diǎn)像折騰操作系統(tǒng)的二進(jìn)制文件,當(dāng)你只是得到一個(gè)二進(jìn)制文件時(shí),當(dāng)然會(huì)更好,因?yàn)槟憧梢?finetune 模型,這是有用的,但這有點(diǎn)微妙,但你不能完全 finetune 模型,因?yàn)槟?finetune 模型越多,它就越可能在其他方面退化。

如果你想要增加能力,而不是回歸其他能力,可能就需要在以前的數(shù)據(jù)集分布和新的數(shù)據(jù)集分布的某種混合物上進(jìn)行訓(xùn)練。因?yàn)槟悴幌牖貧w舊的分布,你只想增加知識(shí)。如果只給你權(quán)重,實(shí)際上是做不到的。你需要訓(xùn)練循環(huán),需要數(shù)據(jù)集等等。因此,在如何使用這些模型方面,你實(shí)際上受到了限制。再說一遍,我認(rèn)為這絕對(duì)是有幫助的,但我認(rèn)為我們幾乎需要更好的語言來描述它。所以有開放權(quán)重模型、開源模型和專有模型,我想,這可能就是生態(tài)系統(tǒng)。是的,它很可能會(huì)和我們現(xiàn)在的系統(tǒng)非常相似。

Stephen Zhan:我想談?wù)劻硗庖粋€(gè)大家都關(guān)心的問題,那就是規(guī)模。簡(jiǎn)單地說,規(guī)模似乎就是一切。數(shù)據(jù)規(guī)模、計(jì)算規(guī)模,因此大型研究實(shí)驗(yàn)室、大型科技巨頭如今擁有巨大的優(yōu)勢(shì)。你對(duì)此有何看法?這就是最重要的嗎?如果不是,還有什么是重要的?

Andrej Karpathy:規(guī)模絕對(duì)是第一位的。我確實(shí)認(rèn)為有一些細(xì)節(jié)需要處理好,蔽日數(shù)據(jù)集的準(zhǔn)備工作就很重要,要做得非常好、非常干凈,等等。這些都是你可以獲得的計(jì)算效率提升。因此,數(shù)據(jù)、算法,當(dāng)然還有模型的訓(xùn)練,以及使其真正大型化。因此,我認(rèn)為規(guī)模將是主要決定因素。它就像事物的第一主要組成部分,但還有許多其他事情需要你去正確處理。因此,規(guī)模幾乎就像設(shè)定了某種速度限制,但你確實(shí)需要一些其他的東西,但就像如果你沒有規(guī)模,那么如果你要訓(xùn)練模型,從根本上說,你就無法訓(xùn)練這些龐大的模型。如果你只是要做微調(diào)之類的工作,那么我認(rèn)為也許規(guī)模較小是必要的,但我們還沒有真正看到這一點(diǎn)完全發(fā)揮出來。

Stephen Zhan:你能分享更多你認(rèn)為也很重要,但優(yōu)先級(jí)較低的因素嗎?

Andrej Karpathy:首先,你不能只是訓(xùn)練這些模型。如果只給你錢和規(guī)模,實(shí)際上還是很難建立這些模型。部分原因是基礎(chǔ)設(shè)施還很新,還在開發(fā)中,還沒有完全到位。但大規(guī)模訓(xùn)練這些模型極其困難,是一個(gè)非常復(fù)雜的分布式優(yōu)化問題。實(shí)際上,現(xiàn)在這方面的人才相當(dāng)稀缺。它基本上會(huì)變成一個(gè)在數(shù)以萬計(jì)的 GPU 上運(yùn)行的瘋狂的東西。所有的 GPU 都會(huì)在不同的時(shí)間點(diǎn)隨機(jī)失效。

因此,對(duì)其進(jìn)行檢測(cè)并使其正常工作實(shí)際上是一項(xiàng)極其艱巨的挑戰(zhàn)。直到最近,GPU 才打算用于 10,000 GPU 的工作負(fù)載。因此,我認(rèn)為很多基礎(chǔ)架構(gòu)都在這種壓力下吱吱作響。我們需要解決這個(gè)問題。但現(xiàn)在,如果你只是給別人一大筆錢、一大堆規(guī)?;?GPU,我不認(rèn)為他們就能生產(chǎn)出這樣的模型,這就是為什么這不僅僅是規(guī)模的問題。實(shí)際上,你需要大量的專業(yè)知識(shí),包括基礎(chǔ)設(shè)施方面、算法方面,以及數(shù)據(jù)方面和謹(jǐn)慎處理數(shù)據(jù)方面。因此,我認(rèn)為這些都是主要的組成部分。

Stephen Zhan:生態(tài)系統(tǒng)發(fā)展如此迅速。幻覺、語境窗口、多模態(tài)能力、推理變得更好、更快、更便宜。當(dāng)今有哪些大語言模型的研究挑戰(zhàn)讓您徹夜難眠?你認(rèn)為哪些問題既迫在眉睫,又可以迎刃而解,我們還可以繼續(xù)探索?

Andrej Karpathy:在算法方面,我正在思考的一件事是擴(kuò)散模型和自回歸模型之間的明顯區(qū)別。它們都是表示概率分布的方法。而事實(shí)證明,不同的模式顯然更適合這兩種模式中的一種??赡苡幸恍┛臻g可以將它們統(tǒng)一起來,或者以某種方式將它們連接起來,同時(shí)獲得一些兩全其美的方法,或者找出我們?nèi)绾文塬@得一種混合架構(gòu)等等。

令我感到有些奇怪的是,在模型的空間里,我們有兩個(gè)不同的點(diǎn),它們都非常好,但中間卻什么都沒有,這讓我覺得很不對(duì)勁。因此,我認(rèn)為我們會(huì)看到這種情況的出現(xiàn)。另外,我還想說的是,在運(yùn)行這些東西的能量效率上,還有很大的差距。

就運(yùn)行這些模型的效率而言,我們可能差了一千到一百萬倍。當(dāng)然,我認(rèn)為部分原因是我們?cè)O(shè)計(jì)的計(jì)算機(jī)并不適合這種工作負(fù)載。我認(rèn)為,英偉達(dá)在這個(gè)方向上邁出了很好的一步,因?yàn)槟阈枰獦O高的并行性。實(shí)際上,我們并不關(guān)心以某種方式依賴數(shù)據(jù)的順序計(jì)算。我們只需要在許多不同的數(shù)組元素或其他東西上執(zhí)行相同的算法。因此,我認(rèn)為第一條就是讓計(jì)算機(jī)架構(gòu)適應(yīng)新的數(shù)據(jù)工作流。

第二點(diǎn)是推動(dòng)我們目前看到的一些改進(jìn)。第一項(xiàng)精度,我們看到精度從最初的雙倍 64 位下降到現(xiàn)在的四位、五位、六位,甚至 1 位?,F(xiàn)在已經(jīng)降到了,我不知道是多少,4、5、6,甚至 1.58,這取決于你讀的是哪篇論文。因此,精確度是第一個(gè)重要杠桿。

然后第二個(gè)當(dāng)然是稀疏性,這也像另一個(gè)重要差距。你的大腦并不總是完全激活,稀疏性是另一個(gè)重要的杠桿。我也覺得馮-諾依曼架構(gòu)的計(jì)算機(jī),以及它們是如何構(gòu)建的,以及它們?cè)诖┧髷?shù)據(jù)進(jìn)出,在內(nèi)存和進(jìn)行所有計(jì)算的內(nèi)核之間進(jìn)行大量的數(shù)據(jù)移動(dòng)。

這都是有問題的,因?yàn)槟愕拇竽X不是這樣工作的,這也是它如此高效的原因。所以我認(rèn)為,在計(jì)算機(jī)架構(gòu)領(lǐng)域,這將是一個(gè)非常激動(dòng)人心的時(shí)刻。我不是計(jì)算機(jī)架構(gòu)師,但我覺得,我們好像差了一百萬倍,一千到一百萬,差不多吧,應(yīng)該會(huì)有令人興奮的創(chuàng)新來降低誤差。

/ 02 / 馬斯克的企業(yè)理念:小而精的技術(shù)團(tuán)隊(duì)

Stephen Zhan:在場(chǎng)或許有幾位算法工程師在研究這個(gè)問題。換個(gè)話題,你曾與AI界許多知名人物共事。比如,埃隆-馬斯克和OpenAI的CEO奧爾特曼、創(chuàng)始人格雷格·布羅克曼。你如何看待他們帶領(lǐng)團(tuán)隊(duì)的文化和理念?

Andrej Karpathy:埃隆·馬斯克經(jīng)營(yíng)公司的風(fēng)格非常獨(dú)特。第一點(diǎn)是,他喜歡非常小的、強(qiáng)大的、高度技術(shù)化的團(tuán)隊(duì)。默認(rèn)情況下,公司都喜歡團(tuán)隊(duì)不斷壯大。埃隆總是喜歡反對(duì)擴(kuò)大團(tuán)隊(duì)。我必須努力工作,花大力氣才能雇到人。我不得不像懇求一樣去雇人。而且,埃隆·馬斯克還很喜歡裁人。所以,我必須幾番爭(zhēng)取才能留下那些馬斯開默認(rèn)要裁掉的人。他總是希望保持一個(gè)小而強(qiáng)、技術(shù)含量高的團(tuán)隊(duì)。我們基本沒有管理人員,因?yàn)樗麄儾欢夹g(shù)。這是第一點(diǎn)。

第二點(diǎn)是,他喜歡充滿活力的工作氛圍和環(huán)境。所以辦公室里,人們經(jīng)常走來走去。馬斯克必須看到,員工在繪制圖表,在編碼。他不喜歡閑散的氛圍。他也很抵觸開會(huì),他討厭沒有意義的會(huì)議。在馬斯克看來,只要你不能對(duì)團(tuán)隊(duì)有所貢獻(xiàn),你就走人。在別的公司,這是很罕見的,很多大公司都很寵愛員工。因此, "活躍的氛圍 "是他管理團(tuán)隊(duì)的第二個(gè)理念。馬斯克的企業(yè)文化就是,你要盡全力做好技術(shù)工作,還要有一定的強(qiáng)度。

最后一點(diǎn)其實(shí)很有趣、也很奇怪,那就是他與團(tuán)隊(duì)的聯(lián)系是如此緊密。通常情況下,公司的首席執(zhí)行官就像一個(gè)很遙遠(yuǎn)的人,上至五層,與副總對(duì)話,與報(bào)告和總監(jiān)對(duì)話,最后與你的經(jīng)理對(duì)話。但馬斯克不是這樣的,他會(huì)來辦公室和工程師們談話。我們開過的很多會(huì)議都是,50個(gè)人和埃隆在一個(gè)房間里。他直接與工程師交談。他不想只跟副總裁和總監(jiān)談話。

通常情況下,CEO會(huì)花 99% 的時(shí)間與副總交談。他可能只花 50%的時(shí)間。他只想和工程師交談。在他看來,在一個(gè)小而強(qiáng)的團(tuán)隊(duì)里,工程師和代碼就是一切的基礎(chǔ),而不是某個(gè)經(jīng)理。他希望與工程師直接交談,以了解項(xiàng)目的實(shí)際進(jìn)展,以及如何改進(jìn)。因此,作為CEO卻與技術(shù)工有如此緊密的聯(lián)系,也是馬斯克獨(dú)有的做派。

他經(jīng)常問工程師在研發(fā)過程遇到了什么困難。有時(shí)候他們會(huì)說,沒有足夠的 GPU 來運(yùn)行這個(gè)程序。馬斯克就會(huì)讓GPU集群的負(fù)責(zé)人現(xiàn)在就把GPU集群加倍。他會(huì)讓負(fù)責(zé)人每天給他發(fā)更新,直到集群規(guī)模翻倍。負(fù)責(zé)人可能會(huì)誰,我們已經(jīng)制定了采購計(jì)劃,但是英偉達(dá)現(xiàn)在沒有足夠的 GPU,需要六個(gè)月準(zhǔn)備。然后你會(huì)看到馬斯克眉毛一挑,然后他就會(huì)說,那我和黃仁勛談?wù)劇_@樣,他就解決了這個(gè)問題。

外界都不知道馬斯克在公司內(nèi)部解決了多少像這樣瑣碎又關(guān)鍵的問題。其實(shí),對(duì)一個(gè)CEO來說,這是很少見的,至少在大部分公司你都不會(huì)看到。馬斯克的管理風(fēng)格真的非常獨(dú)特,也很有效,希望在座的也能從中汲取一二。

/ 03 / 初創(chuàng)公司:讓AI生態(tài)充滿活力

Stephen Zhan:回到之前的話題,你參與創(chuàng)辦了一些在AI界頂級(jí)公司 。你也是許多人進(jìn)入人工智能領(lǐng)域的領(lǐng)頭人,甚至很多就在今天的觀眾席上。據(jù)我了解,你最關(guān)心的是人工智能的普及、教育、工具,以及如何在整個(gè)AI生態(tài)系統(tǒng)中創(chuàng)造更多平等。在你步入生命的下一個(gè)階段前,你認(rèn)為什么是最有意義的事?

Andrej Karpathy:我為幾家公司工作過,但我最終關(guān)心的不是任何一家特定的公司。我更關(guān)心整個(gè)AI生態(tài)系統(tǒng)是否良性運(yùn)作。我希望這個(gè)生態(tài)系統(tǒng)欣欣向榮,像珊瑚礁一樣匯聚了許多別具一格的、有創(chuàng)意的初創(chuàng)企業(yè),觸及經(jīng)濟(jì)的各個(gè)角落。這就是我愛創(chuàng)業(yè)公司的原因,我希望這里有一個(gè)充滿活力的生態(tài)系統(tǒng)。但我擔(dān)心的是,基于AGI對(duì)資本放大和集中的能力,未來會(huì)有幾大巨頭控制這個(gè)游戲。我始終期待健康的、充滿活力的生態(tài)系統(tǒng)。

Stephen Zhan:你說的很在理,現(xiàn)在是觀眾提問環(huán)節(jié),我們請(qǐng)一些在座的聽眾互動(dòng)。

Brian Halligan:你會(huì)建議創(chuàng)始人效仿埃隆的管理方法,還是說這是他的獨(dú)特之處,你會(huì)模仿他嗎?

Andrej Karpathy:這取決于創(chuàng)始人的基因。你必須有相同的基因,這是一種與生俱來的氣質(zhì)。當(dāng)你在招聘團(tuán)隊(duì)時(shí),一定要在前面說清楚,這就是你的公司。一開始,當(dāng)人們注冊(cè)時(shí),員工會(huì)非常樂意接受。但如果你半途而廢突然改變,人們就感到很混亂。因此,只要你從一開始就秉承這樣的態(tài)度,并且始終如一,你就可以這樣經(jīng)營(yíng)一家與馬斯克 風(fēng)格類似的公司。但這也有它的利弊,這取決于不同的人,但我認(rèn)為這是一種值得效仿和借鑒的的公司建設(shè)和運(yùn)行模式。

Alex:除了專家混合模型之外,您對(duì)其他類型的模型合成能力有沒有興趣?我不直到你對(duì)模型合并或其他任何使模型開發(fā)更具可組合性的東西有沒有什么看法。

Andrej Karpathy:我看到過這方面的論文,但我不知道這會(huì)不會(huì)有長(zhǎng)久的發(fā)展?jié)撃堋N也恢滥憔唧w指的是什么,也許是可組合性,但有很多關(guān)于參數(shù)效率訓(xùn)練之類的工作。我不知道按照我的理解,你是否會(huì)將其歸入可組合性的范疇,但這只是傳統(tǒng)代碼可組合性很強(qiáng)的情況。

神經(jīng)網(wǎng)絡(luò)在默認(rèn)情況下連接更緊密,可組合性更低,但它們確實(shí)可以組合,可以作為整體的一部分進(jìn)行微調(diào)。舉個(gè)例子,如果你正在做一個(gè)系統(tǒng),你想讓Chat GPT和圖像組合在一起。常見的做法是,你預(yù)先訓(xùn)練組件,然后將它們插入并微調(diào)整個(gè)系統(tǒng)。從在這些方面講,是具有可組合性的,你可以在外部預(yù)先訓(xùn)練大腦皮層的小部分,然后再通過初始化和微調(diào)將它們組合起來。也許這些是我對(duì)它的零散想法,但目前我還沒有形成一整套較為連冠的理論。

/ 04 / AI界的研究生院:Reinforcement Learning強(qiáng)化學(xué)習(xí)

Nick:AI接下來的一個(gè)方向是詞語預(yù)測(cè),所以我們有了下一個(gè)詞的預(yù)測(cè)。你認(rèn)為有沒有辦法建立一個(gè)物理學(xué)家或者一個(gè)馮·諾依曼類型的模型,這個(gè)模型有一個(gè)自洽的物理心理模型,可以產(chǎn)生新的想法,來指導(dǎo)你如何進(jìn)行聚變?如果可能的話,你怎么能比光速旅行更快呢?有什么辦法可以做到這一點(diǎn)嗎?或者,就這些人工智能模型的發(fā)展而言,它是一個(gè)根本不同的向量嗎?

Andrej Karpathy:是的,兩者之間有本質(zhì)區(qū)別,這里還有很多難關(guān)需要破解。在我看來,目前的AI發(fā)展離你口中的世界還很遙遠(yuǎn)。粗略地說,我們已經(jīng)完成了AlphaGo的第一步,機(jī)器的模仿學(xué)習(xí)部分。AlphaGo的第二步是RL(reinforcement learning,強(qiáng)化學(xué)習(xí)),現(xiàn)在的技術(shù)還沒有做到RL。而RL將從根本上改變AlphaGo,這是真正讓它成功并創(chuàng)造出超人的部分。這是我們需要攻克的難題,也有很多棘手的細(xì)節(jié)。長(zhǎng)話短說,AI還處在模仿階段,就是AlphaGo的第一階段。

人們并不會(huì)只滿足現(xiàn)階段的AI發(fā)展。像Chat GPT這樣的數(shù)據(jù)收集推理并沒有我們想象中那么強(qiáng)大。比如,當(dāng)你遇到了一個(gè)問題,提示是某種數(shù)學(xué)問題,我們就想讓ChatGPT給出我們正確答案。問題在于,我們的問題不只是數(shù)學(xué)問題。人類的心理與模型的心理是不同的。人類思維的難易程度與模型的難易程度不同。人類在處理問題的時(shí)候會(huì)有一個(gè)抽絲剝繭的邏輯推理過程。但其中有推理對(duì)模型來說很容易理解,有些推理過程則就像天書一般,模型是無法理解的。

從根本上說,我們需要的是讓模型自己練習(xí)如何解決這些問題。它需要搞清楚什么對(duì)它有用,什么對(duì)它沒用。也許它不太擅長(zhǎng)四位數(shù)加法,所以它會(huì)退回去使用計(jì)算器。但它需要根據(jù)自己的能力和知識(shí)自己學(xué)習(xí)。還有一點(diǎn),現(xiàn)在的AI仍在從人類的反饋中進(jìn)行強(qiáng)化學(xué)習(xí),但這是一種超級(jí)弱的強(qiáng)化學(xué)習(xí)形式,這甚至不能算作強(qiáng)化學(xué)習(xí)。

AlphaGo 中的 RLHF 相當(dāng)于什么?獎(jiǎng)勵(lì)模型是什么?我稱之為 "氛圍檢查(vibe check)"。如果你想訓(xùn)練一個(gè) AlphaGo RLHF,你會(huì)給兩個(gè)人兩塊棋盤,然后說,你更喜歡哪一塊?然后你就會(huì)使用這些標(biāo)簽來訓(xùn)練模型,然后針對(duì)這些標(biāo)簽進(jìn)行強(qiáng)化學(xué)習(xí)。其次,如果獎(jiǎng)勵(lì)模型是一個(gè)神經(jīng)網(wǎng)絡(luò),那么你在優(yōu)化模型時(shí)就很容易過度擬合獎(jiǎng)勵(lì)模型,這樣就會(huì)找到所有這些虛假的方法來欺騙那個(gè)龐大的模型,這就是問題所在。

AlphaGo可以解決這些問題,因?yàn)樗麄冇幸粋€(gè)非常明確的目標(biāo)函數(shù),你可以用強(qiáng)化學(xué)習(xí)與之對(duì)抗。所以RLHF(基于人工反饋的強(qiáng)化學(xué)習(xí))遠(yuǎn)遠(yuǎn)不夠,我會(huì)說 RL 就像傻子一樣,另外模仿學(xué)習(xí)也超級(jí)傻。人們需要尋找更好的方法來訓(xùn)練這些模型,使其與自身和自身心理保持一致。在這個(gè)方向上我們還需要不斷探索進(jìn)步,這有點(diǎn)像人工智能模型的研究生院。AI也需要像我們一樣自己在圖書館捧著一本書自主學(xué)習(xí)。

舉個(gè)例子,當(dāng)你在學(xué)習(xí)知識(shí),教科書里會(huì)有練習(xí),也會(huì)有提示你練習(xí)教材的內(nèi)容。但是,這不僅僅是從左往右讀(Alphago的第一階段模仿學(xué)習(xí))。你需要練習(xí),做筆記,你要重新措辭,重新構(gòu)思。就像你在學(xué)習(xí)這些知識(shí)的過程中,對(duì)這些知識(shí)進(jìn)行了大量的操作。而我們?cè)趌lm大語言模型中還沒有看到類似的事情。所以,AI發(fā)展尚在早期。

Yuzi:同時(shí)兼顧最優(yōu)性和實(shí)用性很酷。我想問的是,你們是如何將A(降低成本、創(chuàng)造收入)和B(尋找推理能力更強(qiáng)、質(zhì)量更好的模型)這兩個(gè)優(yōu)先事項(xiàng)結(jié)合起來的?你們將如何協(xié)調(diào)兩者?

Andrej Karpathy:一般做法是,一開始就不計(jì)成本使用功能最強(qiáng)大的模型,比如同時(shí)使用 GPT-4和超級(jí)提示,只是想讓你的東西發(fā)揮作用。所以,首先要追求準(zhǔn)確性,然后再做出讓步。你要檢查某些類型的查詢是否可以降到 3.5。然后再檢查是否可以降低成本。所以我會(huì)說,先追求性能,然后再降低成本。

如果你能讓它運(yùn)轉(zhuǎn)起來,比如說你做了10個(gè)提示或20個(gè)提示,然后你挑出一個(gè)最好的,你進(jìn)行了一些比較篩選,或者這就是最佳版本之前的試錯(cuò)。通過不斷試錯(cuò),你就能得到大量可能的問題類型。在此基礎(chǔ)上,你可以運(yùn)行程序來獲取標(biāo)簽。然后,你可以得到一個(gè)更精簡(jiǎn)、成本更低的模型,在上面進(jìn)行微調(diào)。無論如何,我都會(huì)先盡可能做好工作,然后再降低成本,這是我的建議。

/ 05 / 開源,讓AI觸手可及

Sam:在過去的一年里,我們從開源生態(tài)系統(tǒng)中看到了很多令人印象深刻的成果。我很好奇,隨著模型規(guī)模的不斷擴(kuò)大,開源生態(tài)系統(tǒng)會(huì)繼續(xù)跟上閉源開發(fā)的步伐嗎?

Andrej Karpathy:從根本上說,我也不清楚。這些模式都是資本密集型的,比如Facebook和Meta等,他們有能力大規(guī)模培訓(xùn)這些模型,但這并非他們的核心業(yè)務(wù),因?yàn)檫@并不是他們的搖錢樹。

因此,他們有實(shí)際的動(dòng)力去發(fā)布其中的一些模型,從而增強(qiáng)整個(gè)生態(tài)系統(tǒng)的能力,這樣他們就能引入所有創(chuàng)新的點(diǎn)子。但到目前為止,我認(rèn)為他們只做到了開放權(quán)重模式。我認(rèn)為他們應(yīng)該更進(jìn)一步,這也是我希望看到的。這對(duì)大家都好。但是就模型訓(xùn)練數(shù)據(jù)而言,社會(huì)一直存在一些爭(zhēng)議。我不知道如何克服這一點(diǎn)。也許他們應(yīng)該嘗試尋找他們認(rèn)為非常容易使用的數(shù)據(jù)源,或者類似的數(shù)據(jù)源,并嘗試將模型架在這些數(shù)據(jù)源上。

Meta 和 Facebook 做得很好,是這個(gè)領(lǐng)域的領(lǐng)頭羊。他們發(fā)布了論文、日志等。在促進(jìn)生態(tài)系統(tǒng)方面,他們可以做得更好。我想,提高更多的透明性,這指日可待。

Peter:什么會(huì)讓人工智能生態(tài)系統(tǒng)更酷、更有活力,同時(shí),什么阻礙了它的發(fā)展?是開放性,還是其他你認(rèn)為或許更重要的東西?

Andrej Karpathy:一個(gè)重要方面就是AI是否是開放的、可觸及的。我最近發(fā)過一條推特,說的是 "第一,設(shè)計(jì)產(chǎn)品;第二,加速發(fā)展"。我想說,有很多人都在做第一件事—設(shè)計(jì)更多的AI產(chǎn)品。但是,專注于創(chuàng)新加速發(fā)展的卻少得多。我們都是新手,都在試圖了解AI是如何工作的。我們都需要加強(qiáng)合作,以弄清如何有效地使用它。所以,我希望大家能更開放地分享他們的心得,他們是如何訓(xùn)練這些東西的,哪些有效,哪些無效,這只是為了讓我們從彼此身上學(xué)到更多。第二,開放生態(tài)系統(tǒng)也展現(xiàn)了相當(dāng)大的發(fā)展勢(shì)頭,也許還有一些我已經(jīng)說過的改進(jìn)機(jī)會(huì)。

Michael:要從模型中獲得下一個(gè)巨大的性能飛躍,您認(rèn)為用思想標(biāo)記(thought tokens)或激活信標(biāo)(activation beacons)修改transformer架構(gòu)就足夠了嗎?還是我們需要完全拋棄它,并提出一個(gè)新的基本構(gòu)建塊,將我們帶到下一個(gè)重大進(jìn)步或AGI?

Andrej Karpathy:首先,我要說的是Transformer太不可思議了。在Transformer問世之前,我曾一度以為神經(jīng)網(wǎng)絡(luò)會(huì)瘋狂地多樣化。但事實(shí)并非如此,甚至完全相反。所有的模型都是一樣的。能做到這一點(diǎn)真是不可思議。我不知道這是不是最終的神經(jīng)網(wǎng)絡(luò)...從這個(gè)領(lǐng)域的歷史來看,很難說這就是它的終結(jié)。在自回歸或融合方面,這有點(diǎn)像建模和損失設(shè)置,我想說的是,那里肯定會(huì)有一些成果。但同樣在Transformer上,精度和稀疏性這些杠桿,在我們的推動(dòng)下,加上硬件的協(xié)同設(shè)計(jì)以及可能的發(fā)展,使網(wǎng)絡(luò)架構(gòu)更加適應(yīng)這些約束條件,以及所有這些如何發(fā)揮作用。

在某種程度上,Transformer 是為 GPU 而設(shè)計(jì)的。可以說,這是 Transformer 論文中的一大飛躍,也是他們的出發(fā)點(diǎn),即我們想要一個(gè)從根本上來說非??刹⑿谢募軜?gòu)。由于遞歸神經(jīng)網(wǎng)絡(luò)具有順序依賴性,這對(duì) GPU 來說是非常可怕的,而 Transformer 則從根本上打破了這一限制。

但這也是一種針對(duì)現(xiàn)有硬件的算法。因此,我認(rèn)為這也是一種相同的精神。但長(zhǎng)話短說,我認(rèn)為我們很可能還會(huì)看到它的變化。但不得不說,Transformer在問世的8年間已經(jīng)被證明具有非凡的適應(yīng)能力。所以最初的Transformer和我們現(xiàn)在用的并沒有太大區(qū)別。

Stephen Zhan:臨別之際,您對(duì)在座的所有創(chuàng)始人和AI工程師有什么建議?

Andrej Karpathy:我通常沒有什么通用建議。我關(guān)心的事情是,創(chuàng)始人也會(huì)非常關(guān)心。我還想,比如我們?nèi)绾尾拍軗碛幸粋€(gè)充滿活力的初創(chuàng)企業(yè)生態(tài)系統(tǒng)?初創(chuàng)企業(yè)如何繼續(xù)勝出,尤其是在與大型科技公司的競(jìng)爭(zhēng)中?生態(tài)系統(tǒng)如何變得更健康,你能做些什么?

Stephen Zhan:聽起來你應(yīng)該成為一名投資者。非常感謝你的參與,Andrej,感謝你今天一整天的參與。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多