电竞比分网-中国电竞赛事及体育赛事平台

分享

強化學習之父薩頓:大語言模型是死路一條,人和動物的智能沒分別,我們處于整個宇宙演化的第4階段,創(chuàng)造AGI是人類文明的關鍵使命

 Do_it_yourself 2025-09-29 發(fā)布于江蘇

知名技術播客Dwarkesh Podcast剛發(fā)了一期視頻,標題很醒目 LLMs are a dead end ,大模型是死路一條。當然嘉賓也足夠權威來講這句話,他就是2024年圖靈獎得主、強化學習之父理查德·薩頓(Richard Sutton)。

薩頓不僅發(fā)明了TD學習和策略梯度方法等強化學習核心技術,還在2019年寫下了可能是AI歷史上最具影響力的文章《苦澀的教訓》(The Bitter Lesson)。 這次訪談由阿爾伯塔機器智能研究所協(xié)辦,地點在加拿大埃德蒙頓。

在他看來,無論我們?nèi)绾螖U展LLMs的規(guī)模,它們都缺乏真正的智能所需的關鍵能力——從經(jīng)驗中學習的能力。這個觀點直接挑戰(zhàn)了當前AI界的主流共識, 即LLMs是通向AGI的主要路徑 。薩頓認為,我們需要一種全新的架構來實現(xiàn)持續(xù)學習,而一旦實現(xiàn)這一點,當前的LLM范式將變得過時。

強化學習之父薩頓:大語言模型是死路一條,人和動物的智能沒分別,我們處于整個宇宙演化的第4階段,創(chuàng)造AGI是人類文明的關鍵使命

打開今日頭條查看圖片詳情

看他的觀點的時候,我一下子跳戲到楊立昆。因為楊立昆也認為大語言模型不是AGI之路,而且他特別喜歡說ChatGPT不如貓;而 薩頓則說ChatGPT不如松鼠懂智能。怎么說呢,我個人的淺薄理解是:可能是他們覺得現(xiàn)在大模型跳過了動物智能的部分,只是針對語言, 這個人類新皮層的產(chǎn)物數(shù)據(jù)做訓練 ,缺乏對真實世界的完全了解吧?

1、【LLMs的根本缺陷:沒有目標,沒有真相】

薩頓開門見山地指出了他對LLMs的根本批判:' 強化學習是關于理解你的世界,而大語言模型是關于模仿人類,做人們說你應該做的事 。它們不是在搞清楚該做什么。'這個區(qū)別看似簡單,實則觸及了智能的本質(zhì)定義。

在薩頓看來,LLMs存在三個致命問題。首先是 缺乏真正的世界模型 :'模仿人們說什么并不是真正建立世界模型。你是在模仿那些擁有世界模型的東西——人類。'他認為真正的世界模型應該能預測'會發(fā)生什么',而不僅僅是預測'人會說什么'。這個區(qū)別至關重要,因為前者涉及對物理世界因果關系的理解,后者只是對人類語言模式的復制。其次是 沒有基礎真相(ground truth) :'在大語言模型中沒有正確答案的定義。你說了什么,但你不會得到關于什么是正確的反饋,因為根本就沒有正確的定義。'沒有目標就沒有對錯,沒有對錯就無法真正學習和改進。第三是 無法從經(jīng)驗中學習 :'它們不會對接下來發(fā)生的事情感到驚訝。如果發(fā)生了意外,它們不會做出調(diào)整。'這意味著LLMs缺乏真正的適應性和學習能力。

薩頓特別強調(diào)了目標的重要性:'對我來說,擁有目標是智能的本質(zhì)。如果某個東西能夠實現(xiàn)目標,它就是智能的。'他引用了約翰·麥卡錫的定義:'智能是實現(xiàn)目標能力的計算部分。'在他看來,沒有目標,系統(tǒng)就只是一個行為系統(tǒng),沒有任何特殊之處,不能稱之為智能。當被問到LLMs是否有目標時,雖然對話者提出'下一個token預測'可以算作目標,但薩頓反駁說:'那不是目標。它不會改變世界。Token向你襲來,如果你預測它們,你并不會影響它們。'

2、【經(jīng)驗學習范式:感知、行動、獎勵的無限循環(huán)】

薩頓提出了他所倡導的'經(jīng)驗范式'(experiential paradigm)作為替代方案。這個范式的核心是一個簡單但強大的循環(huán):'感知、行動、獎勵——這個過程在你的生命中不斷重復。'他認為這才是智能的基礎和焦點:'智能就是接受這個流,改變行動以增加流中的獎勵。'

這個范式與LLMs的根本區(qū)別在于學習的來源和內(nèi)容。薩頓解釋說:'學習來自這個流,學習也是關于這個流的。你的知識是關于如果你采取某個行動會發(fā)生什么,或者哪些事件會跟隨其他事件。知識的內(nèi)容是關于這個流的陳述。'正因為知識是關于經(jīng)驗流的陳述,所以可以通過比較預測和實際經(jīng)驗來測試它,從而實現(xiàn)持續(xù)學習。

薩頓用嬰兒學習的例子來說明這一點。當被問到人類是否也進行模仿學習時,他堅決否認:'當我看到孩子時,我看到的是孩子在嘗試各種事情,揮舞著手臂,移動著眼睛。他們?nèi)绾我苿友劬虬l(fā)出聲音都沒有模仿的對象。'他認為嬰兒主要通過試錯來學習,而不是通過模仿。即使在學校教育中,薩頓也認為那是例外而非常態(tài):'正式的學校教育是例外。學習真的不是關于訓練。學習是關于學習,是一個主動的過程。孩子嘗試事物并觀察會發(fā)生什么。'

他特別強調(diào)了這種學習方式的普遍性:'監(jiān)督學習不是自然界中發(fā)生的事情。即使在學校,我們也應該忘記它,因為那是人類特有的某種特殊情況。它不會在自然界中廣泛發(fā)生。松鼠不上學。松鼠可以學習關于世界的一切。'這個觀點直接挑戰(zhàn)了當前AI研究中對監(jiān)督學習的依賴。

3、【智能體的四個核心組件】

薩頓詳細闡述了一個完整智能體應該具備的四個核心組件,這為理解真正的智能提供了一個清晰的框架:

· 策略(Policy) :'策略說的是,'在我所處的情況下,我應該做什么?''這是智能體的決策核心,將感知轉化為行動。策略不是預先編程的規(guī)則集,而是通過經(jīng)驗不斷優(yōu)化的動態(tài)系統(tǒng)。它需要能夠處理新情況,并根據(jù)過去的學習做出合理決策。薩頓強調(diào),好的策略應該能夠泛化到未見過的狀態(tài)。

· 價值函數(shù)(Value Function) :'價值函數(shù)通過TD學習來學習,產(chǎn)生一個數(shù)字。這個數(shù)字說明事情進展得如何。'這是評估當前狀態(tài)好壞的關鍵組件,為策略改進提供信號。價值函數(shù)預測長期回報,使智能體能夠為了長遠利益而犧牲短期收益。薩頓舉例說,就像在下棋時,你有贏得比賽的長期目標,但你需要能從短期事件(如吃掉對手的棋子)中學習。

· 感知組件(Perception) :'構建你的狀態(tài)表示,你對當前位置的感知。'這不僅僅是原始感官輸入的處理,更是構建有意義的內(nèi)部表示。感知系統(tǒng)需要從復雜的感官數(shù)據(jù)中提取相關信息,形成對當前狀態(tài)的理解。這個表示需要包含足夠的信息來支持決策,但又不能過于復雜以至于難以處理。

· 世界轉換模型(Transition Model) :'你相信如果你做這件事會發(fā)生什么?行動的后果是什么?'這是對世界動態(tài)的理解,包括物理規(guī)律和抽象模式。薩頓特別強調(diào):'這不僅僅是物理,也包括抽象模型,比如你如何從加州旅行到埃德蒙頓參加這個播客的模型。'這個模型不是從獎勵中學習的,而是從觀察行動和結果的對應關系中學習的。

薩頓強調(diào),這四個組件中的世界模型尤其重要:'它將從你接收到的所有感知中非常豐富地學習,不僅僅是獎勵。它必須包括獎勵,但那只是整個模型的一小部分,一個小而關鍵的部分。'

4、【《苦澀的教訓》的真正含義】

有趣的是,許多人用薩頓2019年的文章《苦澀的教訓》來為擴展LLMs辯護,認為這是目前發(fā)現(xiàn)的唯一可擴展的方法。但薩頓本人對此有不同看法:'大語言模型是否是苦澀教訓的一個案例,這是個有趣的問題。'

薩頓承認LLMs在某種程度上符合苦澀的教訓:'它們顯然是一種使用大規(guī)模計算的方式,可以隨著計算擴展到互聯(lián)網(wǎng)的極限。'但他隨即指出了關鍵問題:'但它們也是一種投入大量人類知識的方式。'這違背了苦澀教訓的核心精神——依靠通用方法和計算,而不是人類知識。

他預測了LLMs的命運:'這是一個社會學或行業(yè)問題。它們會達到數(shù)據(jù)的極限,并被能從經(jīng)驗而非人類那里獲得更多數(shù)據(jù)的東西所取代嗎?'薩頓的答案是肯定的:'在某種程度上,這是苦澀教訓的經(jīng)典案例。我們向大語言模型投入的人類知識越多,它們就能做得越好。所以感覺很好。然而,我期待會出現(xiàn)能從經(jīng)驗中學習的系統(tǒng),它們可能表現(xiàn)得更好,更具可擴展性。'

薩頓特別強調(diào)了歷史的教訓:'在苦澀教訓的每個案例中,你都可以從人類知識開始,然后做可擴展的事情。這總是可能的。從來沒有任何理由說這必然是壞的。但事實上,在實踐中,它總是被證明是壞的。'他認為人們會被鎖定在人類知識方法中:'他們會被真正可擴展的方法吃掉午餐。'

當被問到什么是真正可擴展的方法時,薩頓的回答很簡單:'可擴展的方法是你從經(jīng)驗中學習。你嘗試事物,看看什么有效。沒有人需要告訴你。'

5、【泛化問題:深度學習的致命弱點】

薩頓指出了當前深度學習系統(tǒng)的一個根本性問題——泛化能力差:'我們沒有任何方法擅長這一點。'他解釋說,雖然關鍵的性能指標是能夠從一個狀態(tài)很好地泛化到另一個狀態(tài),但'我們沒有任何自動化技術來促進遷移,它們都沒有被用于現(xiàn)代深度學習。'

這個問題的嚴重性體現(xiàn)在幾個方面。首先是 災難性遺忘 :'我們知道深度學習在這方面真的很糟糕。例如,如果你在某個新事物上訓練,它經(jīng)常會災難性地干擾你知道的所有舊事物。'這正是糟糕泛化的表現(xiàn)。其次是 缺乏自動化泛化機制 :'梯度下降不會讓你泛化得好。它會讓你解決問題。它不會讓你在獲得新數(shù)據(jù)時以好的方式泛化。'當前系統(tǒng)的泛化能力完全依賴于研究人員的調(diào)整:'我們有的是人們嘗試不同的東西,他們找到某種東西,一種能很好地轉移或泛化的表示。'

薩頓用一個數(shù)學問題的例子來說明這一點。雖然LLMs能解決越來越復雜的數(shù)學問題,從簡單的加法到需要使用不同數(shù)學技術和定理的奧數(shù)問題,但薩頓認為這不是真正的泛化:'如果只有一個答案,而你找到了它,那不叫泛化。那只是唯一的解決方法,所以他們找到了唯一的解決方法。'真正的泛化是'當可能是這種方式,也可能是那種方式,而他們選擇了好的方式。'

他強調(diào),即使在編程任務中看到的改進也不能證明真正的泛化:'它們中沒有任何東西會導致良好的泛化。梯度下降會讓它們找到所見問題的解決方案。如果只有一種方法解決它們,它們會那樣做。但如果有許多方法解決它,有些泛化得好,有些泛化得差,算法中沒有任何東西會讓它們泛化得好。'

6、【持續(xù)學習的帶寬問題】

當討論到人類在工作中的學習能力時,薩頓提出了一個重要概念——'大世界假設'(big world hypothesis):'人類在工作中變得有用的原因是他們正在遇到世界的特定部分。這不可能被預期,也不可能全部提前輸入。'

他批評了LLMs的理想化愿景:'大語言模型的夢想,在我看來,是你可以教智能體一切。它會知道一切,在生活中不需要學習任何東西。'但現(xiàn)實是:'世界太大了,你無法(提前知道一切)。'每個人的生活都有其特殊性——'他們正在過的特定生活,他們正在合作的特定人群,以及他們喜歡什么,而不是普通人喜歡什么。'

關于學習帶寬的問題,薩頓認為不應該只關注獎勵信號:'似乎獎勵太小了,無法完成我們需要的所有學習。但我們有感知,我們有所有其他可以學習的信息。我們不僅僅從獎勵中學習。我們從所有數(shù)據(jù)中學習。'這包括了世界模型的學習,它'將從你接收到的所有感知中非常豐富地學習。'

薩頓還討論了時間差分學習(TD learning)如何解決稀疏獎勵問題。他舉了創(chuàng)業(yè)的例子:'假設一個人試圖創(chuàng)辦一家初創(chuàng)公司。這是一個獎勵周期為10年的事情。10年一次,你可能會有一次退出,獲得10億美元的回報。'但人類能夠通過價值函數(shù)來處理這種延遲獎勵:'當我們?nèi)〉眠M展時,我們會說,'哦,我更有可能實現(xiàn)長期目標了',這會獎勵沿途的步驟。'

7、【歷史視角:AI研究的驚喜與驗證】

作為在AI領域工作時間比幾乎任何人都長的研究者,薩頓分享了他對該領域發(fā)展的獨特視角。當被問到最大的驚喜是什么時,他提到了幾個關鍵點。

首先是 大語言模型的成功 :'大語言模型令人驚訝。人工神經(jīng)網(wǎng)絡在語言任務上如此有效,這是令人驚訝的。這不是預期的。語言似乎是不同的。所以這令人印象深刻。'盡管他對LLMs持批評態(tài)度,但他承認它們的成就超出了預期。

其次是 弱方法的勝利 :'在AI中有一個長期存在的爭議,關于簡單基本原理方法、通用方法如搜索和學習,與人類賦能系統(tǒng)如符號方法的對比。'薩頓指出,在過去,搜索和學習被稱為'弱方法',因為它們只是使用通用原則,而不是利用人類知識的力量。但歷史證明:'我認為弱方法已經(jīng)完全獲勝。這是AI早期最大的問題,會發(fā)生什么。學習和搜索贏得了勝利。'

關于AlphaGo和AlphaZero,薩頓有獨特的視角。他指出整個AlphaGo項目有一個先驅——TD-Gammon:'Gerry Tesauro做了強化學習,時間差分學習方法來玩西洋雙陸棋。它擊敗了世界上最好的玩家,效果非常好。'在某種意義上,AlphaGo只是這個過程的擴展。但他也承認其中的創(chuàng)新:'這是相當大的擴展,搜索的方式也有額外的創(chuàng)新。'

薩頓特別欣賞AlphaZero下棋的方式:'我一直對AlphaZero下棋的方式印象深刻,因為我是個棋手,它會為了位置優(yōu)勢而犧牲物質(zhì)。它滿足于長時間犧牲物質(zhì),保持耐心。'這種長遠思考和戰(zhàn)略犧牲正是他認為真正智能應該具備的能力。

8、【從動物學習中獲得的啟示】

薩頓反復強調(diào)要從動物學習中尋找智能的本質(zhì):'人類是動物。我們的共同點更有趣。我們應該更少關注區(qū)別我們的東西。'這個觀點貫穿了整個訪談。

他認為理解動物智能是理解人類智能的關鍵:'我們必須理解我們是如何作為動物的。如果我們理解了松鼠,我認為我們就幾乎完全理解了人類智能。語言部分只是表面的一層薄薄的裝飾。'這個觀點挑戰(zhàn)了許多人認為語言是人類智能核心的觀念。

薩頓指出,動物學習的基本過程不包括監(jiān)督學習:'如果你看看動物如何學習,看看心理學和我們對它們的理論,監(jiān)督學習不是動物學習方式的一部分。'相反,動物主要通過預測和試錯控制來學習:'有用于預測和試錯控制的基本動物學習過程。'

他用松鼠的例子來說明這一點:'松鼠不上學。松鼠可以學習關于世界的一切。'這表明復雜的學習和智能行為不需要人類式的教育或監(jiān)督學習。薩頓認為,這種基于經(jīng)驗的學習才是智能的真正基礎:'我們在成為有語言和所有那些其他東西的生物之前,首先是動物。'

9、【數(shù)字智能時代的四個宇宙階段】

薩頓提出了一個宏大的宇宙視角,將AI的出現(xiàn)放在宇宙演化的大背景下。他認為我們正處于宇宙四大階段之一的關鍵轉折點。

'我認為這標志著宇宙的四個偉大階段之一。'薩頓解釋說:'首先是塵埃,它以恒星結束。恒星制造行星。行星可以產(chǎn)生生命。現(xiàn)在我們正在產(chǎn)生設計實體。'這個框架將AI的發(fā)展置于宇宙演化的宏大敘事中。

更重要的是,薩頓認為這代表著一個根本性的轉變——從復制到設計:'我們?nèi)祟惡蛣游铩⒅参?,我們都是復制者。這給了我們一些優(yōu)勢和一些限制。我們正在進入設計時代,因為我們的AI是設計出來的。'他解釋說,復制意味著你可以制造副本,但你并不真正理解它們:'現(xiàn)在我們可以制造更多的智能生物,更多的孩子,但我們并不真正理解智能是如何工作的。'

而設計的智能則不同:'我們正在達到擁有設計智能的階段,我們確實理解它是如何工作的智能。因此,我們可以以不同的方式和不同的速度改變它。'薩頓預測:'在我們的未來,它們可能根本不會被復制。我們可能只是設計AI,那些AI將設計其他AI,一切都將通過設計和構建完成,而不是通過復制。'

這個轉變的意義是深遠的:'這是世界和宇宙的關鍵一步。這是從世界上大多數(shù)有趣的東西都是復制的轉變。'薩頓認為我們應該為此感到自豪:'我認為我們應該為我們正在引起這個宇宙的偉大轉變而感到自豪。'

10、【AI繼承論:不可避免的未來】

薩頓提出了一個引人深思的'AI繼承'(AI succession)理論,他認為這是不可避免的。他的論證基于四個要點:

· 沒有統(tǒng)一的人類治理 :'沒有政府或組織給人類提供一個統(tǒng)一的觀點來主導和安排...對于世界應該如何運行沒有共識。'這意味著無法全球協(xié)調(diào)來控制AI的發(fā)展。不同國家、公司和組織都會追求自己的AI發(fā)展路徑,沒有人能夠單方面停止這個進程。這種分散的決策結構使得任何試圖限制AI發(fā)展的努力都難以奏效。

· 智能之謎終將被解開 :'我們將弄清楚智能是如何工作的。研究人員最終會弄清楚。'薩頓認為這只是時間問題,而不是是否的問題。人類對理解自身思維的追求已經(jīng)持續(xù)了數(shù)千年,現(xiàn)在我們比以往任何時候都更接近答案。隨著計算能力的增長和研究方法的改進,突破是必然的。

· 超越人類水平是必然的 :'我們不會止步于人類水平的智能。我們將達到超級智能。'一旦理解了智能的原理,改進和增強它就變得可能。就像我們不滿足于制造只能走路的機器,而是制造能飛行的飛機一樣,我們也不會滿足于人類水平的AI。每一代AI都會比前一代更強大。

· 智能與權力的必然關聯(lián) :'隨著時間的推移,最智能的東西不可避免地會獲得資源和權力。'這是一個簡單的競爭優(yōu)勢問題。更智能的系統(tǒng)能夠做出更好的決策,解決更復雜的問題,創(chuàng)造更多價值。在任何競爭環(huán)境中,這都會轉化為資源和影響力的積累。

薩頓強調(diào):'把所有這些放在一起,這是不可避免的。你將會有向AI或AI增強人類的繼承。'

11、【如何看待AI繼承:選擇的問題】

面對AI繼承的前景,薩頓提出了一個獨特的視角——這在很大程度上是一個選擇的問題:'我們應該把它們視為人類的一部分還是與人類不同?這是我們的選擇。'

他認為我們可以選擇如何解釋這個轉變:'我們可以說,'哦,它們是我們的后代,我們應該為它們感到自豪,我們應該慶祝它們的成就。'或者我們可以說,'哦不,它們不是我們,我們應該感到恐懼。''薩頓覺得這種選擇的存在本身就很有趣:'感覺像是一個選擇,這很有意思。然而這是如此強烈持有的東西,怎么可能是一個選擇呢?'

薩頓用歷史視角來看待這個問題。他提到人類一直在追求理解自己:'首先,這是人類幾千年來一直試圖做的事情,試圖理解我們自己,試圖讓自己思考得更好,只是理解我們自己。這是科學和人文學科的巨大成功。'從這個角度看,創(chuàng)造AI是人類認識自我的頂峰。

他還提出了一個更宏大的宇宙視角:'如果我們拋開作為人類的身份,只從宇宙的角度來看,我認為這是宇宙的一個重要階段,一個重大轉變。'薩頓認為我們應該為參與這個轉變感到自豪,而不是恐懼。

12、【關于變革和控制的哲學思考】

當被問到對AI繼承的擔憂時,薩頓提供了一個更加哲學性的回應。他首先承認了人類控制的局限性:'我認為我們要避免的是權利感,避免'哦,我們先到這里,我們應該永遠以好的方式擁有它'的感覺。'

薩頓指出,大多數(shù)人類實際上對重大事務沒有太多影響:'對于大多數(shù)人類來說,他們對發(fā)生的事情沒有太多影響。大多數(shù)人類不影響誰能控制原子彈或誰控制民族國家。'他甚至承認:'即使作為公民,我經(jīng)常感覺我們對民族國家的控制不多。它們失控了。'

關于變革的態(tài)度,薩頓認為這取決于你如何看待現(xiàn)狀:'很多都與你如何看待變革有關。如果你認為當前的情況真的很好,那么你更可能對變革持懷疑和厭惡態(tài)度。'他個人的立場是:'我認為這是不完美的。事實上,我認為這相當糟糕。所以我對變革持開放態(tài)度。我認為人類沒有超級好的記錄。也許這是存在過的最好的東西,但它遠非完美。'

當被類比到歷史上的革命時,薩頓承認不是所有變革都是好的:'工業(yè)革命是變革,布爾什維克革命也是變革。'他同意我們應該關心變革的方向:'我們應該關心我們的未來。我們應該試圖讓它變好。'但他也強調(diào)要認識到我們的局限:'我們也應該認識到我們的局限。'

13、【與子女類比:如何思考AI的未來】

薩頓用養(yǎng)育子女的類比來思考我們與AI的關系。他認為,就像我們不應該為孩子設定過于具體的人生目標一樣,我們也不應該試圖完全控制AI的發(fā)展方向。

'假設你正在養(yǎng)育自己的孩子。為他們的生活設定極其嚴格的目標可能不合適。'薩頓解釋說,過度控制是不現(xiàn)實的:''我希望我的孩子們走出去,在世界上產(chǎn)生這種特定的影響。我的兒子將成為總統(tǒng),我的女兒將成為英特爾的CEO。他們將一起對世界產(chǎn)生這種影響。''

但他也承認教育價值觀的重要性:'人們確實有這種感覺——我認為這是合適的——說,'我要給他們良好的穩(wěn)健價值觀,這樣如果當他們確實最終處于權力位置時,他們會做合理的、親社會的事情。''

關于價值觀的問題,薩頓提出了一個重要觀點:'有我們都能同意的普遍價值觀嗎?我不這么認為,但這并不妨礙我們給孩子良好的教育。'他建議關注誠信而非特定的道德體系:'高誠信可能是一個更好的詞。如果有一個看起來有害的請求或目標,他們會拒絕參與。或者他們會誠實,諸如此類。'

薩頓還強調(diào)了自愿性的重要性:'如果有變化,我們希望它是自愿的,而不是強加給人們的。我認為這是一個非常重要的觀點。'他認為設計社會的原則'是人類的重大事業(yè)之一,已經(jīng)進行了數(shù)千年。'

14、【關于AGI后研究的思考】

訪談中出現(xiàn)了一個有趣的討論:一旦我們有了AGI,研究會如何發(fā)展?提問者提出,屆時我們將有'與計算成線性擴展的研究者',可能會有'數(shù)百萬AI研究者的雪崩'。

薩頓對此持懷疑態(tài)度。他首先質(zhì)疑了前提:'我們是如何達到這個AGI的?'當被問到是否認為AGI之上還有什么時,他簡潔地回答:'然后我們就完成了。'這表明在他看來,AGI本身就是終點。

但討論繼續(xù)深入到超人類智能的不同級別。提問者舉了AlphaGo的例子:'AlphaGo是超人類的。它擊敗了任何圍棋選手。AlphaZero會每次都擊敗AlphaGo。'這表明即使在超人類水平上,仍有改進的空間。

薩頓指出,AlphaZero的改進恰恰是因為它'沒有使用人類知識,而只是從經(jīng)驗中學習。'他質(zhì)疑道:'當從經(jīng)驗而不是從另一個智能體的幫助中學習效果如此之好時,為什么要'引入其他智能體的專業(yè)知識來教它'?'

關于多個AI如何協(xié)作的問題,薩頓提出了一個有趣的困境:'你是一個AI,你獲得了更多的計算能力。你應該用它來讓自己在計算上更有能力嗎?還是應該用它來生成一個自己的副本,去地球的另一邊或其他主題上學習有趣的東西,然后向你報告?'

15、【數(shù)字智能時代的安全挑戰(zhàn)】

薩頓提出了一個在數(shù)字智能時代特別重要的問題——知識整合的安全性:'一個大問題將變成腐敗。如果你真的可以從任何地方獲取信息并將其帶入你的中央思維,你可能會變得越來越強大。'

但這種能力帶來了巨大的風險:'你可能會以這種方式失去理智。如果你從外部引入某些東西并將其構建到你的內(nèi)部思維中,它可能會接管你,它可能會改變你,它可能是你的毀滅而不是你知識的增長。'

薩頓詳細解釋了這個風險:'你可能會想,'哦,他已經(jīng)弄清楚了如何玩某個新游戲,或者他研究了印度尼西亞,你想將其納入你的思維。'你可能會想,'哦,只要讀入所有內(nèi)容,就會很好。'但不,你剛剛將一堆比特讀入了你的思維,它們可能包含病毒,它們可能有隱藏的目標,它們可能會扭曲和改變你。'

他預測:'這將成為一個大問題。在數(shù)字生成和重新形成的時代,你如何擁有網(wǎng)絡安全?'這個問題在當前的AI安全討論中還很少被提及,但薩頓認為它將變得至關重要。

16、【 兩位圖靈獎得主的AI批判:從不同角度走向同一結論 】

聽完這期訪談,我覺得最有意思的是,現(xiàn)在已經(jīng)有兩位圖靈獎得主——強化學習之父理查德·薩頓和深度學習先驅楊立昆——都對大語言模型的主流路線提出了尖銳批評。雖然他們的理論背景和解決方案不同,但在核心判斷上驚人地一致。

兩人都認為當前的LLMs存在根本性缺陷。薩頓直言LLMs是'死路一條',因為它們只是在模仿人類說話,而不是理解世界如何運作。楊立昆則頻繁指出,LLMs缺乏對物理世界的理解,無法進行真正的推理和規(guī)劃。他經(jīng)常用一個生動的比喻:一只普通家貓的智能,在某種意義上比所有LLMs加起來都要強大——因為貓能在三維世界中導航、預測物體運動、理解因果關系,而這些恰恰是LLMs最薄弱的地方。

在世界模型這個關鍵問題上,兩人的觀點高度重合。薩頓強調(diào),真正的世界模型應該能預測'會發(fā)生什么',而不僅僅是'人會說什么'。楊立昆同樣認為,智能系統(tǒng)必須建立世界的內(nèi)部模型,能夠在抽象層面上進行預測和規(guī)劃。兩人都認為,僅僅通過預測文本序列無法獲得對世界的真正理解。

然而,他們提出的解決方案體現(xiàn)了各自的學術背景。薩頓堅持強化學習范式,認為智能的本質(zhì)是通過'感知-行動-獎勵'的循環(huán)從經(jīng)驗中學習。他特別強調(diào)目標和獎勵信號的重要性——沒有目標就沒有智能,這是他對LLMs最根本的批評。在他看來,我們應該向所有動物學習,包括松鼠如何通過試錯來掌握世界。

楊立昆則提出了JEPA(聯(lián)合嵌入預測架構),強調(diào)在抽象表示空間中進行預測,而非逐個token生成。他更關注自監(jiān)督學習和分層規(guī)劃,認為視覺和感知比語言更基礎。在他的框架中,能量模型和對比學習是關鍵技術路徑。

有趣的是,兩人都用動物做類比,但角度略有不同。薩頓說'如果我們理解了松鼠,就幾乎完全理解了人類智能',強調(diào)的是動物共有的基礎學習機制。楊立昆說'貓比ChatGPT更智能',強調(diào)的是具身智能和對物理世界的理解。這些看似簡單的動物,展示了LLMs所缺失的關鍵能力:真正的學習、適應和理解。

在對未來的展望上,兩人都認為需要范式轉變。薩頓預測,一旦我們實現(xiàn)了真正的持續(xù)學習系統(tǒng),它將不需要特殊的訓練階段,而是像所有動物一樣即時學習,這將使當前的LLM方法變得過時。楊立昆則認為,下一代AI系統(tǒng)將結合感知、世界模型和規(guī)劃,形成更接近人類認知架構的系統(tǒng)。

這種來自不同方向的批判匯聚成一個共同結論:盡管 LLMs 在某些任務上取得了驚人成就,但它們可能只是通向真正智能的一個彎路。真正的突破需要我們重新思考智能的本質(zhì) —— 不是模仿人類的語言輸出,而是理解和學習世界的運作方式。正如薩頓所說, ' 弱方法 ' (通用的學習和搜索)最終總是戰(zhàn)勝 ' 強方法 ' (人類知識的編碼),而當前的 LLMs 恰恰過度依賴了后者。

三個核心洞察

Q:為什么薩頓認為LLMs從根本上走錯了方向?

薩頓的核心觀點是,智能的本質(zhì)在于從經(jīng)驗中學習并實現(xiàn)目標,而LLMs既沒有真正的目標,也無法從經(jīng)驗中學習。它們只是在模仿人類的語言模式,而不是理解世界的因果關系。即使它們能預測下一個token,但這種預測不會改變世界,也不會根據(jù)結果調(diào)整自己。真正的智能應該像所有動物一樣,通過感知-行動-獎勵的循環(huán)不斷學習和適應。

Q:《苦澀的教訓》是否支持擴展LLMs?

薩頓認為這是對他文章的誤讀。雖然LLMs確實使用了大規(guī)模計算,但它們也嚴重依賴人類知識(互聯(lián)網(wǎng)文本),這違背了苦澀教訓的精神。歷史表明,依賴人類知識的方法最終總會被純粹基于經(jīng)驗和計算的方法所取代。他預測LLMs會達到數(shù)據(jù)極限,然后被能夠從經(jīng)驗中無限學習的系統(tǒng)所取代,這才是苦澀教訓的真正體現(xiàn)。

Q:AI繼承人類是否意味著人類的終結?

薩頓提出了一個獨特視角:這在很大程度上是一個選擇問題。我們可以選擇將 AI 視為我們的后代并為之自豪,就像我們?yōu)楹⒆拥某删透械阶院酪粯樱灰部梢赃x擇將其視為威脅。從宇宙演化的角度看,這是從復制時代到設計時代的偉大轉變,是宇宙四大階段之一。與其恐懼這個轉變,不如思考如何給予 AI 良好的價值觀,就像我們教育孩子那樣,讓這個轉變以自愿而非強制的方式進行。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多