Deepseek是“算力屠夫”還是“新春紅包”？

真友書屋 2025-01-29

展開全文

Deepseek或是算力星辰大海的一朵“小浪花

1. 556萬美元遠(yuǎn)遠(yuǎn)低估DeepSeek v3真實(shí)訓(xùn)練算力與未來發(fā)展需求

據(jù)DeepSeek V3論文，556萬美元的成本僅包括DeepSeek-V3 的正式訓(xùn)練，不包括與架構(gòu)、算法、數(shù)據(jù)相關(guān)的前期研究、消融實(shí)驗(yàn)的成本。而基于充足前期準(zhǔn)備進(jìn)行正式訓(xùn)練的成本往往都比較低，單獨(dú)討論正式訓(xùn)練成本屬于斷章取義。以同樣在2025年1月發(fā)布的加州大學(xué)伯克利Sky-T1-32B-Preview為例，其正式訓(xùn)練成本僅為450美元，但在數(shù)學(xué)能力等方面跑分超過OpenAI o1-Preview。

DeepSeeK V3論文：

網(wǎng)頁鏈接

Sky-T1-32B項(xiàng)目地址：網(wǎng)頁鏈接

2. 太陽底下無新鮮事：后發(fā)模型的算力效率優(yōu)勢曾導(dǎo)致英偉達(dá)股價(jià)大跌，事后看只是算力需求發(fā)展星辰大海的小浪花

無獨(dú)有偶，2024年4月19日，Meta發(fā)布LLaMA 3大模型，從跑分?jǐn)?shù)據(jù)來看70B參數(shù)的開源模型基本可與GPT4相媲美，引發(fā)了關(guān)于算力需求討論，當(dāng)日英偉達(dá)大跌10%。而伴隨后續(xù)GPT4o、OpenAI o1等全新模型發(fā)布，訓(xùn)練算力需求仍在持續(xù)擴(kuò)大，事實(shí)上LLaMA 3發(fā)布后英偉達(dá)大跌后成為一輪新行情的起點(diǎn)。DeepSeek大模型的發(fā)布，或帶來更強(qiáng)的鲇魚效應(yīng)，OpenAI CEO奧特曼對于Deepseek作為競爭對手很興奮，并宣布將加速發(fā)布更好的模型。

llama 3 VS GPT4：網(wǎng)頁鏈接

3. Jevons 悖論：降低AI行業(yè)進(jìn)入門檻與成本，反而推動(dòng)總需求上升

DeepSeek所有模型均為開源模型，即所有應(yīng)用廠商一夜之間都擁有了可以比肩頂級AI的大模型，而且還可自行二次開發(fā)、靈活部署，這將加速AI應(yīng)用的發(fā)展進(jìn)程。當(dāng)模型的成本越低，開源模型發(fā)展越好，模型的部署、使用就會(huì)更高頻率、更多數(shù)量。DeepSeek的突破讓很多人第一次認(rèn)識(shí)到AI模型的實(shí)用價(jià)值，真正開始使用模型。有了更多低成本、本地、開源模型，Token的需求量會(huì)成千上萬倍的增加。這就是經(jīng)濟(jì)學(xué)上著名的“杰文斯悖論”：

“當(dāng)技術(shù)進(jìn)步提高了資源使用的效率，不僅沒有減少這種資源的消耗，反而因?yàn)槭褂贸杀窘档停碳ち烁蟮男枨?，最終導(dǎo)致資源使用總量反而上升。”

過去已經(jīng)有很多的例子證明這點(diǎn)：

1、第一次工業(yè)革命期間蒸汽機(jī)效率的提高，使得市場上煤炭的消耗總量反而增加；

2、手機(jī)從大哥大年代到目前智能手機(jī)普及時(shí)代, 單價(jià)下降為十分之一左右，但手機(jī)市場放大數(shù)十倍。

3、如果一個(gè)家庭買了一臺(tái)更節(jié)能的空調(diào)。按理說，更節(jié)能的空調(diào)應(yīng)該會(huì)減少電費(fèi)支出。但實(shí)際發(fā)生的往往是：因?yàn)殡娰M(fèi)便宜了，這家人反而更舍得開空調(diào)了，不僅開得時(shí)間更長，溫度還調(diào)得更低，最后總電費(fèi)不降反升。

模型算力效率突破，看起來影響單位計(jì)算的價(jià)格，進(jìn)而壓縮高性能芯片供應(yīng)商的利潤空間。但從更長的周期來看，恰恰會(huì)加速AI的普及和創(chuàng)新，帶來算力需求更大量級提升。

蛇年開啟，我們只要想清楚三個(gè)問題，DeepSeek造成的全球算力恐慌性拋售或是“新春紅包”：

1、大模型架構(gòu)演進(jìn)是否到了盡頭？DeepSeek R1反而說明架構(gòu)演進(jìn)創(chuàng)新正在持續(xù)，尤其在多模態(tài)、世界模型等領(lǐng)域，更多架構(gòu)演進(jìn)與創(chuàng)新正在進(jìn)行；

2、大模型的性能目標(biāo)是否已經(jīng)達(dá)到？目前大模型距離AGI甚至ASI仍然有很長的路要走，強(qiáng)化學(xué)習(xí)本質(zhì)上就是用算力完成數(shù)據(jù)自循環(huán)，需要更多更強(qiáng)的算力；

3、大模型的算力需求是否已經(jīng)飽和？DeepSeek的目標(biāo)是做開源的AGI，實(shí)現(xiàn)這一目標(biāo)，降低大眾獲得AGI的門檻，無處不在訓(xùn)練與部署AGI的算力需求是我們今天所不可想象的，那是真正的“星辰大海”。

通往AGI之路仍然漫長，我們堅(jiān)信像DeepSeek一樣的玩家會(huì)越來越多，大家對中國AI產(chǎn)業(yè)的信心會(huì)越來越強(qiáng)，我們也將真正進(jìn)入AI應(yīng)用繁榮的起點(diǎn)。民生計(jì)算機(jī)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：真友書屋 > 《主題》

舉報(bào)/認(rèn)領(lǐng)