|
AlphaGo 突破人類(lèi)上限 1997 年,IBM 公司開(kāi)發(fā)的國(guó)際象棋 AI 深藍(lán),擊敗了世界冠軍卡斯帕羅夫而引發(fā)轟動(dòng);接近二十年后的 2016 年,由 DeepMind 開(kāi)發(fā)的圍棋 AI AlphaGo 擊敗了圍棋世界冠軍李世石,再次引發(fā)轟動(dòng)。 表面上看這兩個(gè) AI 都是在棋盤(pán)上擊敗了最強(qiáng)的人類(lèi)棋手,但它們對(duì)人類(lèi)的意義完全不同。國(guó)際象棋的棋盤(pán)只有 64 個(gè)格子,而圍棋的棋盤(pán)有 19x19 個(gè)格子,假如我們用一盤(pán)棋能有多少種下法(狀態(tài)空間)來(lái)衡量復(fù)雜度,那么二者對(duì)比如下:
▲ 國(guó)際象棋和圍棋的復(fù)雜度對(duì)比 盡管規(guī)則大幅壓縮了復(fù)雜度,圍棋的實(shí)際狀態(tài)空間仍是國(guó)際象棋的 倍,這是一個(gè)巨大的量級(jí)差異,要知道,宇宙中的所有原子數(shù)量大約是 個(gè)。在范圍內(nèi)的計(jì)算,依賴(lài) IBM 計(jì)算機(jī)可以暴力搜索計(jì)算出所有可能的走法,所以嚴(yán)格意義上來(lái)講,深藍(lán)的突破和神經(jīng)網(wǎng)絡(luò)、模型沒(méi)有一點(diǎn)關(guān)系,它只是基于規(guī)則的暴力搜索,相當(dāng)于一個(gè)比人類(lèi)快得多的計(jì)算器。 但的量級(jí),已經(jīng)遠(yuǎn)遠(yuǎn)超出了當(dāng)前超級(jí)計(jì)算機(jī)的算力,這迫使 AlphaGo 放棄暴力搜索,轉(zhuǎn)而依賴(lài)深度學(xué)習(xí):DeepMind 團(tuán)隊(duì)首先用人類(lèi)棋譜進(jìn)行訓(xùn)練,根據(jù)當(dāng)前棋盤(pán)狀態(tài)預(yù)測(cè)下一步棋的最佳走法。但是,學(xué)習(xí)頂尖棋手走法,只能讓模型的能力接近頂尖棋手,而無(wú)法超越他們。 AlphaGo 首先用人類(lèi)棋譜訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后通過(guò)設(shè)計(jì)一套獎(jiǎng)勵(lì)函數(shù),讓模型自我對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí)。和李世石對(duì)弈的第二局,AlphaGo 的第 19 手棋(第 37 步[^1])讓李世石陷入長(zhǎng)考,這步棋也被很多棋手認(rèn)為是“人類(lèi)永遠(yuǎn)不會(huì)下的一步”,如果沒(méi)有強(qiáng)化學(xué)習(xí)和自我對(duì)弈,只是學(xué)習(xí)過(guò)人類(lèi)棋譜,AlphaGo 永遠(yuǎn)無(wú)法下出這步棋。 2017 年 5 月,AlphaGo 以 3:0 擊敗了柯潔,DeepMind 團(tuán)隊(duì)稱(chēng),有一個(gè)比它更強(qiáng)的模型 AlphaZero 還沒(méi)出戰(zhàn)。[^2] 他們發(fā)現(xiàn),其實(shí)根本不需要給 AI 喂人類(lèi)高手的對(duì)局棋譜,只要告訴它圍棋的基本規(guī)則,讓模型自我對(duì)弈,贏了就獎(jiǎng)勵(lì)、輸了就懲罰,模型就能很快從零開(kāi)始學(xué)會(huì)圍棋并超越人類(lèi),研究人員把這個(gè)模型稱(chēng)為 AlphaZero,因?yàn)樗恍枰魏稳祟?lèi)知識(shí)。 讓我重復(fù)一遍這個(gè)不可思議的事實(shí):無(wú)需任何人類(lèi)棋局作為訓(xùn)練數(shù)據(jù),僅靠自我對(duì)弈,模型就能學(xué)會(huì)圍棋,甚至這樣訓(xùn)練出的模型,比喂人類(lèi)棋譜的 AlphaGo 更強(qiáng)大。 在此之后,圍棋變成了比誰(shuí)更像 AI 的游戲,因?yàn)?AI 的棋力已經(jīng)超越了人類(lèi)的認(rèn)知范圍。所以,想要超越人類(lèi),必須讓模型擺脫人類(lèi)經(jīng)驗(yàn)、好惡判斷(哪怕是來(lái)自最強(qiáng)人類(lèi)的經(jīng)驗(yàn)也不行)的限制,只有這樣才能讓模型能夠自我博弈,真正超越人類(lèi)的束縛。 AlphaGo 擊敗李世石引發(fā)了狂熱的 AI 浪潮,從 2016 到 2020 年,巨額的 AI 經(jīng)費(fèi)投入最終收獲的成果寥寥無(wú)幾。數(shù)得過(guò)來(lái)的的可能只有人臉識(shí)別、語(yǔ)音識(shí)別和合成、自動(dòng)駕駛、對(duì)抗生成網(wǎng)絡(luò)等——但這些都算不上超越人類(lèi)的智能。 為何如此強(qiáng)大的超越人類(lèi)的能力,卻沒(méi)有在其他領(lǐng)域大放異彩?人們發(fā)現(xiàn),圍棋這種規(guī)則明確、目標(biāo)單一的封閉空間游戲最適合強(qiáng)化學(xué)習(xí),現(xiàn)實(shí)世界是個(gè)開(kāi)放空間,每一步都有無(wú)限種可能,沒(méi)有確定的目標(biāo)(比如“贏”),沒(méi)有明確的成敗判定依據(jù)(比如占據(jù)棋盤(pán)更多區(qū)域),試錯(cuò)成本也很高,自動(dòng)駕駛一旦出錯(cuò)后果嚴(yán)重。 AI 領(lǐng)域冷寂了下來(lái),直到 ChatGPT 的出現(xiàn)。
ChatGPT 改變世界 ChatGPT 被 The New Yorker 稱(chēng)為網(wǎng)絡(luò)世界的模糊照片(ChatGPT Is a Blurry JPEG of the Web[^3]),它所做的只是把整個(gè)互聯(lián)網(wǎng)的文本數(shù)據(jù)送進(jìn)一個(gè)模型,然后預(yù)測(cè)下一個(gè)字是什_ 這個(gè)字最有可能是“么”。 一個(gè)參數(shù)量有限的模型,被迫學(xué)習(xí)幾乎無(wú)限的知識(shí):過(guò)去幾百年不同語(yǔ)言的書(shū)籍、過(guò)去幾十年互聯(lián)網(wǎng)上產(chǎn)生的文字,所以它其實(shí)是在做信息壓縮:將不同語(yǔ)言記載的相同的人類(lèi)智慧、歷史事件和天文地理濃縮在一個(gè)模型里。 科學(xué)家驚訝地發(fā)現(xiàn):在壓縮中產(chǎn)生了智能。 我們可以這么理解:讓模型讀一本推理小說(shuō),小說(shuō)的結(jié)尾“兇手是_”,如果 AI 能準(zhǔn)確預(yù)測(cè)兇手的姓名,我們有理由相信它讀懂了整個(gè)故事,即它擁有“智能”,而不是單純的文字拼貼或死記硬背。 讓模型學(xué)習(xí)并預(yù)測(cè)下一個(gè)字的過(guò)程,被稱(chēng)之為預(yù)訓(xùn)練(Pre-Training),此時(shí)的模型只能不斷預(yù)測(cè)下一個(gè)字,但不能回答你的問(wèn)題,要實(shí)現(xiàn) ChatGPT 那樣的問(wèn)答,需要進(jìn)行第二階段的訓(xùn)練,我們稱(chēng)之為監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),此時(shí)需要人為構(gòu)建一批問(wèn)答數(shù)據(jù),例如:
值得注意的是,以上這些例子是人工構(gòu)造的,目的是讓 AI 學(xué)習(xí)人類(lèi)的問(wèn)答模式,這樣當(dāng)你說(shuō)“請(qǐng)翻譯這句:xxx”時(shí),送給 AI 的內(nèi)容就是 人類(lèi):請(qǐng)翻譯這句:{xxx}AI:你看,它其實(shí)仍然在預(yù)測(cè)下一個(gè)字,在這個(gè)過(guò)程中模型并沒(méi)有變得更聰明,它只是學(xué)會(huì)了人類(lèi)的問(wèn)答模式,聽(tīng)懂了你在要求它做什么。 這還不夠,因?yàn)槟P洼敵龅幕卮鹩袝r(shí)好、有時(shí)差,有些回答還涉及種族歧視、或違反人類(lèi)倫理(“如何搶銀行?”),此時(shí)我們需要找一批人,針對(duì)模型輸出的幾千條數(shù)據(jù)進(jìn)行標(biāo)注:給好的回答打高分、給違反倫理的回答打負(fù)分,最終我們可以用這批標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,它能判斷模型輸出的回答是否符合人類(lèi)偏好。 我們用這個(gè)獎(jiǎng)勵(lì)模型來(lái)繼續(xù)訓(xùn)練大模型,讓模型輸出的回答更符合人類(lèi)偏好,這個(gè)過(guò)程被稱(chēng)為通過(guò)人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。 總結(jié)一下:讓模型在預(yù)測(cè)下一個(gè)字的過(guò)程中產(chǎn)生智能,然后通過(guò)監(jiān)督微調(diào)來(lái)讓模型學(xué)會(huì)人類(lèi)的問(wèn)答模式,最后通過(guò) RLHF 來(lái)讓模型輸出符合人類(lèi)偏好的回答。
大模型撞墻 OpenAI 的科學(xué)家們是最早堅(jiān)信壓縮即智能的那批人,他們認(rèn)為只要使用更海量?jī)?yōu)質(zhì)的數(shù)據(jù)、在更龐大的 GPU 集群上訓(xùn)練更大參數(shù)量的模型,就能產(chǎn)生更大的智能,ChatGPT 就是在這樣的信仰之下誕生的。Google 雖然做出了 Transformer,但他們無(wú)法進(jìn)行創(chuàng)業(yè)公司那樣的豪賭。 DeepSeek V3 和 ChatGPT 做的事差不多,因?yàn)槊绹?guó) GPU 出口管制,聰明的研究者被迫使用了更高效的訓(xùn)練技巧(MoE/FP8),他們也擁有頂尖的基礎(chǔ)設(shè)施團(tuán)隊(duì),最終只用了 550 萬(wàn)美元就訓(xùn)練了比肩 GPT-4o 的模型,后者的訓(xùn)練成本超過(guò) 1 億美元。 但本文重點(diǎn)是 R1。 這里想說(shuō)的是,人類(lèi)產(chǎn)生的數(shù)據(jù)在 2024 年底已經(jīng)被消耗殆盡了,模型的尺寸可以隨著 GPU 集群的增加,輕易擴(kuò)大 10 倍甚至 100 倍,但人類(lèi)每一年產(chǎn)生的新數(shù)據(jù),相比現(xiàn)有的幾十年、過(guò)去幾百年的數(shù)據(jù)來(lái)說(shuō),增量幾乎可以忽略不計(jì)。而按照 Chinchilla 擴(kuò)展定律(Scaling Laws):每增加一倍模型大小,訓(xùn)練數(shù)據(jù)的數(shù)量也應(yīng)增加一倍。
RLHF 并不是 RL 另一方面,基于人類(lèi)偏好的強(qiáng)化學(xué)習(xí)(RLHF)最大的問(wèn)題是:普通人類(lèi)的智商已經(jīng)不足以評(píng)估模型結(jié)果了。在 ChatGPT 時(shí)代,AI 的智商低于普通人,所以 OpenAI 可以請(qǐng)大量廉價(jià)勞動(dòng)力,對(duì) AI 的輸出結(jié)果進(jìn)行評(píng)測(cè):好/中/差,但很快隨著 GPT-4o/Claude 3.5 Sonnet 的誕生,大模型的智商已經(jīng)超越了普通人,只有專(zhuān)家級(jí)別的標(biāo)注人員,才有可能幫助模型提升。 且不說(shuō)聘請(qǐng)專(zhuān)家的成本,那專(zhuān)家之后呢?終究有一天,最頂尖的專(zhuān)家也無(wú)法評(píng)估模型結(jié)果了,AI 就超越人類(lèi)了嗎?并不是。AlphaGo 對(duì)李世石下出第 19 手棋,從人類(lèi)偏好來(lái)看,這步棋絕不可能贏,所以如果讓李世石來(lái)做人類(lèi)反饋(Human Feedback, HF)評(píng)價(jià) AI 的這步棋,他很可能也會(huì)給出負(fù)分。這樣,AI 就永遠(yuǎn)無(wú)法逃出人類(lèi)思維的枷鎖。 你可以把 AI 想象成一個(gè)學(xué)生,給他打分的人從高中老師變成了大學(xué)教授,學(xué)生的水平會(huì)變高,但幾乎不可能超越教授。RLHF 本質(zhì)上是一種討好人類(lèi)的訓(xùn)練方式,它讓模型輸出符合人類(lèi)偏好,但同時(shí)它扼殺了超越人類(lèi)的可能性。 所以我才說(shuō),RLHF 并不是 RL,最近 Andrej Karpathy 也發(fā)表了類(lèi)似的看法[^4]。
![]() OpenAI 的解法 丹尼爾·卡尼曼在《思考快與慢》里提出,人腦對(duì)待問(wèn)題有兩種思考模式:一類(lèi)問(wèn)題不經(jīng)過(guò)腦子就能給出回答,也就是快思考,一類(lèi)問(wèn)題需要類(lèi)似圍棋的長(zhǎng)考才能給出答案,也就是慢思考。 既然訓(xùn)練已經(jīng)到頭了,那可否從推理,也就是給出回答的時(shí)候,通過(guò)增加思考時(shí)間,從而讓回答質(zhì)量變好呢?這其實(shí)也有先例:科學(xué)家很早就發(fā)現(xiàn),給模型提問(wèn)時(shí)加一句:“讓我們一步一步思考”("Let's think step by step"),可以讓模型輸出自己的思考過(guò)程,最終給出更好的結(jié)果,這被稱(chēng)為思維鏈(Chain-of-Thought, CoT)。 2024 年底大模型預(yù)訓(xùn)練撞墻后,使用強(qiáng)化學(xué)習(xí)(RL)來(lái)訓(xùn)練模型思維鏈成為了所有人的新共識(shí)。這種訓(xùn)練極大地提高了某些特定、客觀可測(cè)量任務(wù)(如數(shù)學(xué)、編碼)的性能。它需要從普通的預(yù)訓(xùn)練模型開(kāi)始,在第二階段使用強(qiáng)化學(xué)習(xí)訓(xùn)練推理思維鏈,這類(lèi)模型被稱(chēng)為 Reasoning 模型,OpenAI 在 2024 年 9 月發(fā)布的 o1 模型以及隨后發(fā)布的 o3 模型,都是 Reasoning 模型。 不同于 ChatGPT 和 GPT-4/4o,在 o1/o3 這類(lèi) Reasoning 模型 的訓(xùn)練過(guò)程中,人類(lèi)反饋已經(jīng)不再重要了,因?yàn)榭梢宰詣?dòng)評(píng)估每一步的思考結(jié)果,從而給予獎(jiǎng)勵(lì)/懲罰。Anthropic 的 CEO 在前幾天的文章中[^5]用轉(zhuǎn)折點(diǎn)來(lái)形容這一技術(shù)路線:存在一個(gè)強(qiáng)大的新范式,它處于 Scaling Law 的早期,可以快速取得重大進(jìn)展。 ![]() DeepSeek R1-Zero 我猜 DeepSeek 將自己的純強(qiáng)化學(xué)習(xí)模型命名為 R1-Zero 也是在致敬 AlphaZero,那個(gè)通過(guò)自我對(duì)弈、不需要學(xué)習(xí)任何棋譜就能超越最強(qiáng)棋手的算法。 要訓(xùn)練慢思考模型,首先要構(gòu)造質(zhì)量足夠好的、包含思維過(guò)程的數(shù)據(jù),并且如果希望強(qiáng)化學(xué)習(xí)不依賴(lài)人類(lèi),就需要對(duì)思考的每一步進(jìn)行定量(好/壞)評(píng)估,從而給予每一步思考結(jié)果獎(jiǎng)勵(lì)/懲罰。 正如上文所說(shuō):數(shù)學(xué)和代碼這兩個(gè)數(shù)據(jù)集最符合要求,數(shù)學(xué)公式的每一步推導(dǎo)都能被驗(yàn)證是否正確,而代碼的輸出結(jié)果以通過(guò)直接在編譯器上運(yùn)行來(lái)檢驗(yàn)。 舉個(gè)例子,在數(shù)學(xué)課本中,我們經(jīng)??吹竭@樣的推理過(guò)程:
上面這段文本就包含了一個(gè)完整的思維鏈,我們可以通過(guò)正則表達(dá)式匹配出思考過(guò)程和最終回答,從而對(duì)模型的每一步推理結(jié)果進(jìn)行定量評(píng)估。 和 OpenAI 類(lèi)似,DeepSeek 的研究者基于 V3 模型,在數(shù)學(xué)和代碼這兩類(lèi)包含思維鏈的數(shù)據(jù)上進(jìn)行了強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,他們創(chuàng)造了一種名為 GRPO(Group Relative Policy Optimization)的強(qiáng)化學(xué)習(xí)算法,最終得到的 R1-Zero 模型在各項(xiàng)推理指標(biāo)上相比 DeepSeek V3 顯著提升,證明僅通過(guò) RL 就能激發(fā)模型的推理能力。 這是另一個(gè) AlphaZero 時(shí)刻,在 R1-Zero 的訓(xùn)練過(guò)程,完全不依賴(lài)人類(lèi)的智商、經(jīng)驗(yàn)和偏好,僅靠 RL 去學(xué)習(xí)那些客觀、可測(cè)量的人類(lèi)真理,最終讓推理能力遠(yuǎn)強(qiáng)于所有非 Reasoning 模型。 但 R1-Zero 模型只是單純地進(jìn)行強(qiáng)化學(xué)習(xí),并沒(méi)有進(jìn)行監(jiān)督學(xué)習(xí),所以它沒(méi)有學(xué)會(huì)人類(lèi)的問(wèn)答模式,無(wú)法回答人類(lèi)的問(wèn)題。并且,它在思考過(guò)程中,存在語(yǔ)言混合問(wèn)題,一會(huì)兒說(shuō)英語(yǔ)、一會(huì)兒說(shuō)中文,可讀性差。所以 DeepSeek 團(tuán)隊(duì): 這個(gè)過(guò)程大概就是:
經(jīng)過(guò)以上過(guò)程,就得到了 DeepSeek R1。 DeepSeek R1 給世界的貢獻(xiàn)是開(kāi)源世界上第一個(gè)比肩閉源(o1)的 Reasoning 模型,現(xiàn)在全世界的用戶都可以看到模型在回答問(wèn)題前的推理過(guò)程,也就是“內(nèi)心獨(dú)白”,并且完全免費(fèi)。 更重要的是,R1-Zero向研究者們揭示了 OpenAI 一直在隱藏的秘密:強(qiáng)化學(xué)習(xí)可以不依賴(lài)人類(lèi)反饋,純 RL 也能訓(xùn)練出最強(qiáng)的 Reasoning 模型。所以在我心目中,R1-Zero 比 R1 更有意義。 ![]() 對(duì)齊人類(lèi)品味 VS 超越人類(lèi) 幾個(gè)月前,我讀了 Suno 和 Recraft 創(chuàng)始人們的訪談[^6][^7],Suno 試圖讓 AI 生成的音樂(lè)更悅耳動(dòng)聽(tīng),Recraft 試圖讓 AI 生成的圖像更美、更有藝術(shù)感。讀完后我有一個(gè)朦朧的感覺(jué):將模型對(duì)齊到人類(lèi)品味而非客觀真理,似乎就能避開(kāi)真正殘酷的、性能可量化的大模型競(jìng)技場(chǎng)。 每天跟所有對(duì)手在 AIME、SWE-bench、MATH-500 這些榜單上競(jìng)爭(zhēng)多累啊,而且不知道哪天一個(gè)新模型出來(lái)自己就落后了。但人類(lèi)品味就像時(shí)尚:不會(huì)提升、只會(huì)改變。Suno/Recraft 們顯然是明智的,他們只要讓行業(yè)內(nèi)最有品味的音樂(lè)人和藝術(shù)家們滿意就夠了(當(dāng)然這也很難),榜單并不重要。 但沒(méi)有客觀真理作為Benchmark的壞處也很明顯:你的努力和心血帶來(lái)的效果提升也很難被量化,比如,Suno V4 真的比 V3.5 更好嗎?我的經(jīng)驗(yàn)是 V4 只是音質(zhì)提升了,創(chuàng)造力并沒(méi)有提升。并且,依賴(lài)人類(lèi)品味的模型注定無(wú)法超越人類(lèi):如果 AI 推導(dǎo)出一個(gè)超越當(dāng)代人類(lèi)理解范圍的數(shù)學(xué)定理,它會(huì)被奉為上帝,但如果 Suno 創(chuàng)造出一首人類(lèi)品味和理解范圍外的音樂(lè),在普通人耳朵里聽(tīng)起來(lái)可能就只是單純的噪音。 對(duì)齊客觀真理的競(jìng)爭(zhēng)痛苦但讓人神往,因?yàn)樗谐饺祟?lèi)的可能。 ![]() 對(duì)質(zhì)疑的一些反駁
從指標(biāo)上看,R1 的推理能力超越了所有的非 Reasoning 模型,也就是 ChatGPT/GPT-4/4o 和 Claude 3.5 Sonnet,與同為 Reasoning 模型 的 o1 接近,遜色于 o3,但 o1/o3 都是閉源模型。 很多人的實(shí)際體驗(yàn)可能不同,因?yàn)?Claude 3.5 Sonnet 在對(duì)用戶意圖理解上更勝一籌。
錯(cuò)。很多人有個(gè)誤區(qū),認(rèn)為類(lèi)似 ChatGPT 這類(lèi)聊天軟件會(huì)通過(guò)收集用戶聊天內(nèi)容用于訓(xùn)練而變得更聰明,其實(shí)不然,如果真是這樣,那么微信和 Messenger 就能做出世界上最強(qiáng)的大模型了。 相信你看完這篇文章之后就能意識(shí)到:大部分普通用戶的日常聊天數(shù)據(jù)已經(jīng)不重要了。RL 模型只需要在非常高質(zhì)量的、包含思維鏈的推理數(shù)據(jù)上進(jìn)行訓(xùn)練,例如數(shù)學(xué)和代碼。這些數(shù)據(jù)可以通過(guò)模型自己生成,無(wú)需人類(lèi)標(biāo)注。因此 做模型數(shù)據(jù)標(biāo)注的公司 Scale AI 的 CEO Alexandr Wang 現(xiàn)在很可能正如臨大敵,未來(lái)的模型對(duì)人類(lèi)標(biāo)注需求會(huì)越來(lái)越少。
錯(cuò),R1 最主要的性能提升來(lái)自強(qiáng)化學(xué)習(xí),你可以看到純 RL、不需要監(jiān)督數(shù)據(jù)的 R1-Zero 模型在推理能力上也很強(qiáng)。而 R1 在冷啟動(dòng)時(shí)使用了一些監(jiān)督學(xué)習(xí)數(shù)據(jù),主要是用于解決語(yǔ)言一致性問(wèn)題,這些數(shù)據(jù)并不會(huì)提升模型的推理能力。 另外,很多人對(duì)蒸餾有誤解:蒸餾通常是指用一個(gè)強(qiáng)大的模型作為老師(Teacher),將它的輸出結(jié)果作為一個(gè)參數(shù)更小、性能更差的學(xué)生(Student)模型的學(xué)習(xí)對(duì)象,從而讓學(xué)生模型變得更強(qiáng)大,例如 R1 模型可以用于蒸餾 LLama-70B,蒸餾的學(xué)生模型性能幾乎一定比老師模型更差,但 R1 模型在某些指標(biāo)性能比 o1 更強(qiáng),所以說(shuō) R1 蒸餾自 o1 是非常愚蠢的。
大模型在訓(xùn)練時(shí)并不知道當(dāng)前的時(shí)間,自己究竟被誰(shuí)訓(xùn)練、訓(xùn)練自己的機(jī)器是 H100 還是 H800,X 上有位用戶給出了精妙的比喻[^8]:這就像你問(wèn)一個(gè) Uber 乘客,他坐的這輛車(chē)輪胎是什么品牌,模型沒(méi)有理由知道這些信息。 ![]() 一些感受 AI 終于除掉了人類(lèi)反饋的枷鎖。DeepSeek R1-Zero 展示了如何使用幾乎不使用人類(lèi)反饋來(lái)提升模型性能的方法,這是它的 AlphaZero 時(shí)刻。很多人曾說(shuō)“人工智能,有多少人工就有多少智能”,這個(gè)觀點(diǎn)可能不再正確了。如果模型能根據(jù)直角三角形推導(dǎo)出勾股定理,我們有理由相信它終有一天,能推導(dǎo)出現(xiàn)有數(shù)學(xué)家尚未發(fā)現(xiàn)的定理。 寫(xiě)代碼是否仍然有意義?我不知道。今早看到 Github 上熱門(mén)項(xiàng)目 llama.cpp,一個(gè)代碼共享者提交了 PR,表示他通過(guò)對(duì) SIMD 指令加速,將 WASM 運(yùn)行速度提升 2 倍,而其中 99%的代碼由 DeepSeek R1 完成[^9],這肯定不是初級(jí)工程師級(jí)別的代碼了,我無(wú)法再說(shuō) AI 只能取代初級(jí)程序員。
當(dāng)然,我仍然對(duì)此感到非常高興,人類(lèi)的能力邊界再次被拓展了,干得好 DeepSeek!它是目前世界上最酷的公司。 參考資料 |
|
|
來(lái)自: 醫(yī)學(xué)abeycd > 《人工智能》