电竞比分网-中国电竞赛事及体育赛事平台

分享

Deepseek是“算力屠夫”還是“新春紅包”?

 真友書屋 2025-01-29

Deepseek或是算力星辰大海的一朵“小浪花

1. 556萬美元遠(yuǎn)遠(yuǎn)低估DeepSeek v3真實(shí)訓(xùn)練算力與未來發(fā)展需求

據(jù)DeepSeek V3論文,556萬美元的成本僅包括DeepSeek-V3 的正式訓(xùn)練,不包括與架構(gòu)、算法、數(shù)據(jù)相關(guān)的前期研究、消融實(shí)驗(yàn)的成本。而基于充足前期準(zhǔn)備進(jìn)行正式訓(xùn)練的成本往往都比較低,單獨(dú)討論正式訓(xùn)練成本屬于斷章取義。以同樣在2025年1月發(fā)布的加州大學(xué)伯克利Sky-T1-32B-Preview為例,其正式訓(xùn)練成本僅為450美元,但在數(shù)學(xué)能力等方面跑分超過OpenAI o1-Preview。

DeepSeeK V3論文:

網(wǎng)頁鏈接

圖片

Sky-T1-32B項(xiàng)目地址:網(wǎng)頁鏈接

2. 太陽底下無新鮮事:后發(fā)模型的算力效率優(yōu)勢曾導(dǎo)致英偉達(dá)股價(jià)大跌,事后看只是算力需求發(fā)展星辰大海的小浪花

無獨(dú)有偶,2024年4月19日,Meta發(fā)布LLaMA 3大模型,從跑分?jǐn)?shù)據(jù)來看70B參數(shù)的開源模型基本可與GPT4相媲美,引發(fā)了關(guān)于算力需求討論,當(dāng)日英偉達(dá)大跌10%。而伴隨后續(xù)GPT4o、OpenAI o1等全新模型發(fā)布,訓(xùn)練算力需求仍在持續(xù)擴(kuò)大,事實(shí)上LLaMA 3發(fā)布后英偉達(dá)大跌后成為一輪新行情的起點(diǎn)。DeepSeek大模型的發(fā)布,或帶來更強(qiáng)的鲇魚效應(yīng),OpenAI CEO奧特曼對于Deepseek作為競爭對手很興奮,并宣布將加速發(fā)布更好的模型。

圖片

圖片llama 3 VS GPT4:網(wǎng)頁鏈接

3. Jevons 悖論:降低AI行業(yè)進(jìn)入門檻與成本,反而推動(dòng)總需求上升

DeepSeek所有模型均為開源模型,即所有應(yīng)用廠商一夜之間都擁有了可以比肩頂級AI的大模型,而且還可自行二次開發(fā)、靈活部署,這將加速AI應(yīng)用的發(fā)展進(jìn)程。當(dāng)模型的成本越低,開源模型發(fā)展越好,模型的部署、使用就會(huì)更高頻率、更多數(shù)量。DeepSeek的突破讓很多人第一次認(rèn)識(shí)到AI模型的實(shí)用價(jià)值,真正開始使用模型。有了更多低成本、本地、開源模型,Token的需求量會(huì)成千上萬倍的增加。這就是經(jīng)濟(jì)學(xué)上著名的“杰文斯悖論”:

“當(dāng)技術(shù)進(jìn)步提高了資源使用的效率,不僅沒有減少這種資源的消耗,反而因?yàn)槭褂贸杀窘档停碳ち烁蟮男枨?,最終導(dǎo)致資源使用總量反而上升。”

過去已經(jīng)有很多的例子證明這點(diǎn):

1、第一次工業(yè)革命期間蒸汽機(jī)效率的提高,使得市場上煤炭的消耗總量反而增加;

2、手機(jī)從大哥大年代到目前智能手機(jī)普及時(shí)代, 單價(jià)下降為十分之一左右,但手機(jī)市場放大數(shù)十倍。

3、如果一個(gè)家庭買了一臺(tái)更節(jié)能的空調(diào)。按理說,更節(jié)能的空調(diào)應(yīng)該會(huì)減少電費(fèi)支出。但實(shí)際發(fā)生的往往是:因?yàn)殡娰M(fèi)便宜了,這家人反而更舍得開空調(diào)了,不僅開得時(shí)間更長,溫度還調(diào)得更低,最后總電費(fèi)不降反升。

模型算力效率突破,看起來影響單位計(jì)算的價(jià)格,進(jìn)而壓縮高性能芯片供應(yīng)商的利潤空間。但從更長的周期來看,恰恰會(huì)加速AI的普及和創(chuàng)新,帶來算力需求更大量級提升。

蛇年開啟,我們只要想清楚三個(gè)問題,DeepSeek造成的全球算力恐慌性拋售或是“新春紅包”:

1、大模型架構(gòu)演進(jìn)是否到了盡頭?DeepSeek R1反而說明架構(gòu)演進(jìn)創(chuàng)新正在持續(xù),尤其在多模態(tài)、世界模型等領(lǐng)域,更多架構(gòu)演進(jìn)與創(chuàng)新正在進(jìn)行;

2、大模型的性能目標(biāo)是否已經(jīng)達(dá)到?目前大模型距離AGI甚至ASI仍然有很長的路要走,強(qiáng)化學(xué)習(xí)本質(zhì)上就是用算力完成數(shù)據(jù)自循環(huán),需要更多更強(qiáng)的算力;

3、大模型的算力需求是否已經(jīng)飽和?DeepSeek的目標(biāo)是做開源的AGI,實(shí)現(xiàn)這一目標(biāo),降低大眾獲得AGI的門檻,無處不在訓(xùn)練與部署AGI的算力需求是我們今天所不可想象的,那是真正的“星辰大海”。

通往AGI之路仍然漫長,我們堅(jiān)信像DeepSeek一樣的玩家會(huì)越來越多,大家對中國AI產(chǎn)業(yè)的信心會(huì)越來越強(qiáng),我們也將真正進(jìn)入AI應(yīng)用繁榮的起點(diǎn)。民生計(jì)算機(jī)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多