|
當(dāng)前流行的“規(guī)模即所需”(scale is all you need)是一種“假設(shè)”或“經(jīng)驗(yàn)規(guī)律”,“大力出奇跡”的背后可能是計(jì)算模型的變化和復(fù)雜系統(tǒng)的涌現(xiàn)。大模型的主要功能是“猜測加驗(yàn)證”,不是經(jīng)典的圖靈計(jì)算,本質(zhì)是基于概率統(tǒng)計(jì)的不確定計(jì)算,其解決復(fù)雜問題的效率大大高于圖靈機(jī)模型。許多新現(xiàn)象無法用舊有的計(jì)算理論來解釋,我們需要對計(jì)算模型和人工智能的計(jì)算復(fù)雜性進(jìn)行破舊立新的研究。
人工智能已經(jīng)取得非凡的突破,國際上稱為“phenomenal breakthrough”。phenomenal本身有“非凡”的意思,可能是最早翻譯有關(guān)文章的學(xué)者英文水平不高,杜撰了“現(xiàn)象級突破”這個吸引眼球的奇怪中文,后來通過網(wǎng)絡(luò)傳播就被大家接受了?,F(xiàn)象應(yīng)該比本質(zhì)低一個層次,但是“現(xiàn)象級突破”又被說成是最大的突破,歷史上只有幾次,兩者相矛盾。這是語言傳播中將錯就錯的一個案例。現(xiàn)象級突破其實(shí)就是指一個了不起的突破,一個非凡的突破。 我的看法是,生成式人工智能(AIGC)大大加速了人類向智能時代邁進(jìn)的步伐,知識自動化的普及已成為第四次工業(yè)革命的標(biāo)志,機(jī)器涌現(xiàn)理解能力對人類社會的影響絕不可低估。人工智能現(xiàn)在到底發(fā)展到了什么水平?不同的人有不同的看法。有些“預(yù)言家”和媒體人士認(rèn)為“奇點(diǎn)”臨近,人類已危在旦夕。但嚴(yán)肅的人工智能學(xué)者大多比較冷靜,認(rèn)為人工智能仍處在伽利略(開普勒)時代或牛頓時代前夜。 總的來講,對人工智能的看法應(yīng)該一分為二,也就是“兩點(diǎn)論”:一是人工智能技術(shù)在應(yīng)用層面已取得前所未有的重大突破,對經(jīng)濟(jì)和社會發(fā)展將產(chǎn)生深遠(yuǎn)的影響;二是它在科學(xué)上尚未成熟,還需要做深入的基礎(chǔ)研究。 這一波人工智能令人既欣喜又困惑。大模型的開發(fā)與應(yīng)用成為人工智能發(fā)展的重要趨勢,這導(dǎo)致算力消耗在全球能源消耗中的占比從3%增長到近幾年的10%,預(yù)計(jì)到2030年可能會達(dá)到30%甚至更高。如果按算力每4個月翻一番的速度增長,10年內(nèi)算力就會增長十億倍。急速增長的算力需求對現(xiàn)有能源體系提出了巨大挑戰(zhàn)。核聚變能源和量子計(jì)算技術(shù)普及以前難以滿足這種爆炸式的需求。目前我們還無法確定大語言模型(LLM)是否就是人工智能發(fā)展的終極方向,有不少學(xué)者對此仍持保留態(tài)度。本文嘗試從計(jì)算模式演變的角度探討“大力出奇跡”背后的原因,并提出計(jì)算機(jī)科學(xué)領(lǐng)域的專家們需要關(guān)注的研究方向。 我從理查德·薩頓(Richard Sutton)2019年寫的一篇文章談起,這是OpenAI員工必讀的一篇博客文章。薩頓是DeepMind公司的杰出研究科學(xué)家,被譽(yù)為“強(qiáng)化學(xué)習(xí)教父”。他在這篇文章中給出了一個重要結(jié)論:“苦澀的教訓(xùn):人工智能研究人員一直試圖將人類已知的知識構(gòu)建到他們的智能體中,長遠(yuǎn)來看,這種方法停滯不前,唯一重要的是利用計(jì)算。突破性進(jìn)展最終是通過相反方法,基于搜索和學(xué)習(xí)實(shí)現(xiàn)的。這種成功帶有苦澀,因?yàn)椴皇且匀藶橹行牡姆椒?,而是依靠機(jī)器學(xué)習(xí)。” 這個教訓(xùn)包含兩層含義:一是傳統(tǒng)意義上我們強(qiáng)調(diào)知識的重要性,認(rèn)為“知識就是力量”,當(dāng)然知識依然是一種力量,但數(shù)據(jù)和算力同樣是強(qiáng)大的力量,它們結(jié)合起來能夠產(chǎn)生新的知識;二是知識不一定由人創(chuàng)造,有可能是由機(jī)器生成,而人類尚不了解,這就是令人感到苦澀的原因。 GPT-4等智能技術(shù),與20年前的人工神經(jīng)網(wǎng)絡(luò)理論本質(zhì)上并無差異,其原理可追溯至1943年麥卡洛克(McCulloch)和皮茨(Pitts)提出的神經(jīng)元計(jì)算模型。GPT-4和Sora等智能生成技術(shù)并沒有提出新的人工智能原理,OpenAI和谷歌等公司主要起到工程放大作用。當(dāng)前流行的一句話是“規(guī)模即所需”(scale is all you need),我認(rèn)為這種說法并不是嚴(yán)格的科學(xué)判斷,只能認(rèn)為是一種“假設(shè)”或“經(jīng)驗(yàn)規(guī)律”,甚至是一種“信仰”或者說“豪賭”。 以O(shè)penAI為代表的學(xué)者們歸納出了幾條“公理”,強(qiáng)調(diào)規(guī)模(scale)是制勝法寶。這些公理不像歐幾里得幾何公理那樣久經(jīng)考驗(yàn),但已有幾十年的研究歷史證明是對的,因此可以看作“假設(shè)性的公理”。第一條公理就是“苦澀的教訓(xùn)”,人工智能領(lǐng)域所有的各種各樣的技術(shù),都比不過算力支持的通用算法,所以應(yīng)當(dāng)認(rèn)為,強(qiáng)大算力支持的通用算法(包含模型和數(shù)據(jù))才是人工智能真正進(jìn)步的方向;第二條公理是規(guī)模,即一旦選擇了良好且通用的數(shù)據(jù)標(biāo)注、算法,就能夠找到一套通用的規(guī)律,數(shù)據(jù)越多,模型越大,效果就越好,而且這個規(guī)律在訓(xùn)練之前就可以預(yù)知它的效果;第三條公理是涌現(xiàn),隨著規(guī)模的擴(kuò)大、數(shù)據(jù)的增加,大模型一定會涌現(xiàn)出以前沒有的能力,這個能力可以被所有人看到。 第一條公理是說,大模型、大算力和大數(shù)據(jù)是通用人工智能(Artificial General Intelligence,AGI)的必要條件;第二條公理是說,大規(guī)模是AGI的充分條件,大就是好;第三條公理是檢驗(yàn)公理。OpenAI等公司總結(jié)的經(jīng)驗(yàn)是:如果你能用scale解決問題,就不要用新的算法解決。新算法的最大價值是讓它怎么更好地scale。這三條公理是用大白話描述的經(jīng)驗(yàn)總結(jié),還有待今后的實(shí)踐驗(yàn)證,而且表達(dá)上也不像數(shù)學(xué)公理那么嚴(yán)謹(jǐn),所以目前還只能認(rèn)為是一種“信仰”。 我認(rèn)為,人工智能的突破得益于大數(shù)據(jù)、大模型和大算力,這三個“大”缺一不可,不能只依靠其中一個。單純的算力不是萬能藥。就拿圍棋來說,如果圍棋棋盤擴(kuò)大到20×20,暴力搜索所需的算力需要提高1018倍,即從3361提高到3400,光靠算力無濟(jì)于事。 為什么大模型擴(kuò)大規(guī)模就能出奇跡?其背后的原因可能涉及計(jì)算模型和復(fù)雜系統(tǒng),需要從計(jì)算復(fù)雜性的角度思考。計(jì)算機(jī)科學(xué)中討論的“問題”,是指精確定義的包括很多問題實(shí)例(instance)的一個問題類,比如旅行推銷員問題(TSP)、布爾表達(dá)式的可滿足性問題(SAT)等。一個問題的計(jì)算復(fù)雜性是計(jì)算機(jī)科學(xué)中少有的不變量,如同質(zhì)量守恒、能量守恒一樣重要。問題的計(jì)算復(fù)雜性不隨算法的改變而改變。但這種不變性是針對同一個計(jì)算模型而言的,目前我們大多是在圖靈模型下討論計(jì)算復(fù)雜性。在不同的計(jì)算模型下,同一問題的計(jì)算復(fù)雜性可能不一樣。最典型的例子是在量子計(jì)算模型下解決大數(shù)分解問題,Shor算法的計(jì)算復(fù)雜性是多項(xiàng)式級別,而在經(jīng)典的圖靈模型下是指數(shù)復(fù)雜性。平時大家講不同計(jì)算模型的等價性是對可計(jì)算性而言,不同模型下計(jì)算復(fù)雜性的比較是我們關(guān)心的問題,但這樣的研究成果不多。 自然語言理解、模式識別等很多人工智能問題,以前是公認(rèn)的困難問題,也有人說人工智能問題大多數(shù)是具有指數(shù)復(fù)雜性的NP困難問題(通俗地講,NP困難問題是指問題規(guī)模較大時計(jì)算機(jī)難以解決的問題),這只是一種模糊籠統(tǒng)的說法,沒有給出嚴(yán)格的定義和證明。因?yàn)樗^人工智能要解決的問題,大多是指一類應(yīng)用,如人臉識別、機(jī)器翻譯等。人工智能問題的計(jì)算復(fù)雜性究竟有多高,其實(shí)是講不清楚的。一篇文章從英文翻譯成中文,什么叫做對了,什么叫完成任務(wù),并沒有一個嚴(yán)格定義。這些問題用現(xiàn)有的計(jì)算復(fù)雜性理論沒有辦法討論,因?yàn)橛懻撚?jì)算復(fù)雜性一定要講清楚輸入、輸出是什么,要解決的問題必須有嚴(yán)格的定義。 有人說,大模型解決人工智能問題效率高就是因?yàn)檫@種模糊性,不求最優(yōu)解或精確解。但計(jì)算復(fù)雜性理論告訴我們,有些問題,如旅行推銷員問題,用神經(jīng)網(wǎng)絡(luò)求近似解,仍然具有指數(shù)復(fù)雜性。而中國科學(xué)院計(jì)算技術(shù)研究所用機(jī)器學(xué)習(xí)方法全自動設(shè)計(jì)CPU芯片,正確率要求高達(dá)99.99999999999%(13個9),也能在5個小時內(nèi)實(shí)現(xiàn)??梢妰H僅是求近似解,并不是高效率的必要條件。 現(xiàn)在用大模型做機(jī)器學(xué)習(xí),不管是文字、圖像、視頻生成,還是圖像、語音識別、機(jī)器翻譯、氣象預(yù)報等,實(shí)際效果比過去的方法好很多。究竟是什么原因?與邏輯推理和過去的專家系統(tǒng)等人工智能方法相比,我們究竟改變了什么?我認(rèn)為是改變了計(jì)算模型(機(jī)器學(xué)習(xí)也是一種計(jì)算模型)。 計(jì)算模型有許多高低不同的層次,最高層次的計(jì)算模型也有很多種,除了圖靈模型外,還有λ演算、模擬計(jì)算(連續(xù)量計(jì)算)、量子計(jì)算等,現(xiàn)在大家在做的機(jī)器學(xué)習(xí),是數(shù)據(jù)驅(qū)動的圖靈計(jì)算,不是經(jīng)典的圖靈計(jì)算。所謂“圖靈機(jī)”不是指一臺機(jī)器,而是指一個“過程”,圖靈模型定義了什么過程是計(jì)算。圖靈機(jī)限制很多:第一,所有輸入的信息必須是現(xiàn)成的,計(jì)算之前必須告訴它要輸入什么;第二,計(jì)算過程與輸入源不能交互;第三,機(jī)器必須按照有限的確定性規(guī)則運(yùn)行,在有限的時間內(nèi)結(jié)束等。 圖靈計(jì)算是嚴(yán)格計(jì)算機(jī)科學(xué)意義下的計(jì)算,輸入輸出都是確定的,在不同的機(jī)器上計(jì)算,結(jié)果一樣,今天算與明天算結(jié)果也一樣,所以它解決問題的能力是恒定的。但現(xiàn)有的機(jī)器學(xué)習(xí)系統(tǒng)是與外界交互的,計(jì)算能力在到達(dá)飽和之前與日俱增。圖1參考了王培2023年8月24日在“科普中國·星空講壇”上的報告,其中黑線表示人們期望的具身AI系統(tǒng),比現(xiàn)在機(jī)器學(xué)習(xí)系統(tǒng)具有更強(qiáng)的適應(yīng)性,直接與現(xiàn)實(shí)物理世界交互,能學(xué)到現(xiàn)實(shí)世界的知識和規(guī)律,包括人類尚未掌握的知識。紅線是某些學(xué)者預(yù)測的能力指數(shù)級增長的超人智能,其存在性還有待驗(yàn)證。“計(jì)算”的內(nèi)涵已經(jīng)發(fā)生變化,網(wǎng)絡(luò)上永不停機(jī)的交互式信息服務(wù)和機(jī)器學(xué)習(xí)等已經(jīng)不是嚴(yán)格意義的圖靈計(jì)算,但仍然使用同一術(shù)語,所以引起很多混淆和爭議。
圖1 不同計(jì)算模型的能力隨時間的變化 馮·諾伊曼最早認(rèn)識到神經(jīng)元模型不同于圖靈機(jī)模型,他指出:“圖靈機(jī)和神經(jīng)網(wǎng)絡(luò)模型分別代表了一種重要的研究方式:組合方法和整體方法。麥卡洛克和皮茨對底層的零件作了公理化定義,可以得到非常復(fù)雜的組合結(jié)構(gòu);圖靈定義了自動機(jī)的功能,并沒有涉及到具體的零件?!瘪T·諾伊曼還做出預(yù)言:“信息理論包括兩大塊:嚴(yán)格的信息論和概率的信息論。以概率統(tǒng)計(jì)為基礎(chǔ)的信息理論大概對于現(xiàn)代計(jì)算機(jī)設(shè)計(jì)更加重要。”從目前大模型取得的成功來看,馮·諾伊曼的預(yù)言已經(jīng)變成現(xiàn)實(shí)。對自動機(jī)理論而言,神經(jīng)元模型可能比圖靈模型更有價值。神經(jīng)網(wǎng)絡(luò)不是按照確定的算法實(shí)現(xiàn)圖靈計(jì)算,其主要功能是“猜測加驗(yàn)證”。猜測和計(jì)算是兩個不同的概念,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器更合適的名稱是“猜測機(jī)”,而不是“計(jì)算機(jī)”。大模型的本質(zhì)是基于概率統(tǒng)計(jì)的不確定計(jì)算,其解決復(fù)雜問題的效率大大高于圖靈機(jī)模型。 神經(jīng)元模型與圖靈機(jī)模型幾乎同時提出,已經(jīng)競爭了幾十年。很長時間內(nèi)圖靈機(jī)模型一直占上風(fēng),但辛頓(Hinton)等人從未放棄,直到2012年在ImageNet的圖像識別競賽中一鳴驚人,基于神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)才紅火起來。圖靈機(jī)計(jì)算模型和神經(jīng)網(wǎng)絡(luò)計(jì)算模型各有優(yōu)勢和不足,在不同的領(lǐng)域內(nèi)表現(xiàn)各異,兩者不是取代關(guān)系,而是需要取長補(bǔ)短,相互配合。 值得指出的是,1948年,艾倫·圖靈寫了一篇題為《智能機(jī)器》(Intelligent Machinery)的論文,提出了“無組織機(jī)器”的概念,實(shí)際上這是早期的隨機(jī)連接神經(jīng)網(wǎng)絡(luò)模型,幾乎描述了目前人工智能聯(lián)結(jié)主義的基本原理,包括遺傳算法和強(qiáng)化學(xué)習(xí)。由于沒有得到他的老板的認(rèn)可,這篇文章一直沒有發(fā)表,到2004年才被發(fā)現(xiàn)。這篇文章表明,圖靈本人也看好神經(jīng)元計(jì)算模型。如果學(xué)術(shù)界早點(diǎn)看到這篇論文,今天的計(jì)算機(jī)世界可能是另一幅模樣。 人工智能的基本假設(shè)是丘奇-圖靈論題(Church-Turing thesis),即“認(rèn)知等價于計(jì)算”。1992年我在《模式識別與人工智能》期刊上發(fā)表的《人工智能的計(jì)算復(fù)雜性研究》一文中指出:“人工智能要走出玩小孩游戲(toy problem)的圈子,只有兩條出路,要么承認(rèn)Church-Turing假設(shè),以現(xiàn)有計(jì)算機(jī)能力為基礎(chǔ)(與圖靈機(jī)能力只差多項(xiàng)式倍),尋找合適的問題描述,發(fā)現(xiàn)人工智能中的易解問題;要么不承認(rèn)Church-Turing假設(shè),尋求新的'計(jì)算’模型,使得對人腦易解的問題在新的模型中也易解?!爆F(xiàn)在來看,當(dāng)時的判斷經(jīng)得起時間的考驗(yàn),尋找合適的問題描述和尋求新的“計(jì)算”模型,仍然是人工智能界的主要任務(wù)。 有人反駁我的觀點(diǎn),說現(xiàn)在計(jì)算機(jī)中執(zhí)行的每一步都是圖靈計(jì)算,我們是把其他的計(jì)算模型都“映射”到圖靈機(jī),用圖靈機(jī)模擬其他模型。這可能涉及整體和局部的辯證關(guān)系。機(jī)器學(xué)習(xí)的整個過程像是一條彎彎曲曲的曲線,曲線的每一小段微分都可看作直線。也就是說,目前數(shù)字計(jì)算機(jī)的每一步具體操作是按照圖靈計(jì)算做的,但機(jī)器學(xué)習(xí)整個過程合起來已經(jīng)不是圖靈計(jì)算。這里可能隱含許多深層次的奧妙。在人工智能領(lǐng)域,我們需要對計(jì)算復(fù)雜性進(jìn)行全新的研究,因?yàn)樵S多新現(xiàn)象的出現(xiàn)無法用舊有的理論解釋。目前存在一個問題:專注于復(fù)雜性研究的學(xué)者往往不涉足人工智能領(lǐng)域,而從事人工智能研究的學(xué)者通常對復(fù)雜性研究不感興趣。我相信這兩個領(lǐng)域結(jié)合起來會有原理性的突破。 馮·諾伊曼去世后被整理發(fā)表的著作“自復(fù)制自動機(jī)理論”(Theory of Self-Reproducing Automata)指出:自動機(jī)理論的核心概念在于復(fù)雜性,超復(fù)雜的系統(tǒng)會涌現(xiàn)出新的原理。他提出了一個重要的概念:復(fù)雜度閾值。突破了復(fù)雜度閾值的系統(tǒng),由于在數(shù)據(jù)層的擴(kuò)散和變異作用而不斷進(jìn)化,可以做很困難的事情?,F(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型有數(shù)千億個參數(shù),可能已接近能處理困難問題的復(fù)雜度閾值點(diǎn)。復(fù)雜度閾值是一個十分深奧的科學(xué)問題,還沒有引起學(xué)術(shù)界的高度重視。復(fù)雜度閾值并不等于模型的規(guī)模,需要深入研究。 對待大模型,企業(yè)界有不同的態(tài)度?;\統(tǒng)地講,可以分成“榔頭派”和“釘子派”?!袄祁^派”是技術(shù)信仰派,信仰AGI、信仰縮放定律(scale law),追求模型的通用性,認(rèn)為大模型就是個榔頭,什么釘子都可以敲?!搬斪优伞闭J(rèn)為要先找到釘子,榔頭才能起作用,更相信可以變現(xiàn)的商業(yè)場景。我認(rèn)為榔頭和釘子都很重要,兩者要結(jié)合。人工智能還處在探索階段,要鼓勵技術(shù)途徑的多樣性。大模型是實(shí)踐證明的可行途徑之一,不能認(rèn)為是碰運(yùn)氣,要爭取在大模型技術(shù)上迎頭趕上,有所突破。也要結(jié)合中國國情,走出自己的人工智能發(fā)展之路。人工智能技術(shù)應(yīng)當(dāng)更多地用在材料、醫(yī)療、工業(yè)控制等領(lǐng)域,產(chǎn)生實(shí)實(shí)在在的經(jīng)濟(jì)效益。 當(dāng)我們探索大模型時,可能會發(fā)現(xiàn)關(guān)于智力本質(zhì)的新原理,就像物理學(xué)家在20世紀(jì)發(fā)現(xiàn)關(guān)于物理世界的新原理一樣。量子力學(xué)被發(fā)現(xiàn)時是非常違反直覺的,當(dāng)智能的基本原理被發(fā)現(xiàn)時,它們可能同樣違反直覺。如果關(guān)于大模型的解釋一講就懂,那么可能還沒有找到真正的原理。 2022年,科技公司創(chuàng)造了32個重要的機(jī)器學(xué)習(xí)模型,而學(xué)術(shù)界只產(chǎn)生了3個,這與2014年形成了明顯的反差,當(dāng)時大部分AI突破都來自高校。近年來約70%擁有AI博士學(xué)位的人才進(jìn)入私營公司就業(yè),20年前這個比例只有21%。頭部科技公司對AI領(lǐng)域的“壟斷”愈發(fā)嚴(yán)重,學(xué)術(shù)界面臨前所未有的挑戰(zhàn)。技術(shù)發(fā)展方向完全被企業(yè)家和投資人控制不一定符合全人類的共同利益,科學(xué)家在引領(lǐng)科技良性發(fā)展中要發(fā)揮應(yīng)有的作用。
|
|
|