我們應(yīng)如何看待DeepSeek的557.6萬美元訓(xùn)練成本？

一點進(jìn)步 2025-02-18 發(fā)布于山東

展開全文

三個月前，我們和中國科學(xué)院院士、清華大學(xué)計算機系教授張鈸曾經(jīng)聊過一個話題：“為什么在提高算法效率上中國人會做得更好？”

張鈸告訴我們：“對中國企業(yè)來講，算法效率是生命攸關(guān)的，我們必須全力以赴。也許因為美國人有強大的算力，算法效率對他們來說只是錦上添花而已?！?/p>

當(dāng)時，我們對這句話感受還不是很深，直到后來看到了DeepSeek-V3技術(shù)報告里的這張表格。

DeepSeek-V3的訓(xùn)練成本（假設(shè)H800的租賃價格為2美元/GPU小時），圖片來源：DeepSeek-V3技術(shù)報告

簡單來說，DeepSeek-V3僅使用了2048塊英偉達(dá)H800 GPU，耗費了557.6萬美元就完成了訓(xùn)練，相比同等規(guī)模的模型（如GPT-4、GPT-4o、Llama 3.1），訓(xùn)練成本大幅降低。

這樣說沒有錯，但在復(fù)雜的輿論場中也引發(fā)了一些誤讀。比如，“中國AI企業(yè)用幾百萬美元的成本打敗了美國AI企業(yè)數(shù)億美元的投入”“成本僅為國外三十分之一，硅谷恐慌”。

這種誤讀有一些客觀原因，因為OpenAI、Meta官方從來沒有公布過GPT-4、GPT-4o、Llama 3.1的訓(xùn)練成本，多數(shù)人對模型訓(xùn)練成本構(gòu)成也并不熟悉，但誤讀背后更多還是主觀原因——情緒。

AI大模型領(lǐng)域，中國AI企業(yè)一直是一個“追隨者”的角色，這次有了和硅谷巨頭“掰手腕”的機會，就像霍元甲站上了與西洋力士的比武臺，誰不想叫聲好呢？

這種情緒本身沒有錯，但也在一定程度上模糊了DeepSeek團(tuán)隊在算法、框架和硬件上的優(yōu)化協(xié)同設(shè)計的價值，而這正是DeepSeek-V3降本增效的關(guān)鍵。

01 訓(xùn)練成本差距是否有那么大？

我們查閱了技術(shù)報告，DeepSeek只公布了基座模型V3的訓(xùn)練成本，并沒有公布推理模型R1的訓(xùn)練成本。

DeepSeek-V3技術(shù)報告顯示，該模型的正式訓(xùn)練成本包括三個階段：預(yù)訓(xùn)練（pre-training）、擴展上下文（context extension）、后訓(xùn)練（post-training），共計557.6萬美元。

但是這557.6萬美元的訓(xùn)練成本并不包括前期研究以及關(guān)于架構(gòu)、算法或數(shù)據(jù)的消融實驗所產(chǎn)生的成本。

前期研究、消融實驗屬于“隱性成本”，但不容忽視。

在一個AI企業(yè)正式訓(xùn)練一個模型之前，需要進(jìn)行大量的前期研究，包括對算法的理論研究、對硬件性能的探索、對數(shù)據(jù)集的分析等。

而消融實驗（Ablation Study）是一種在機器學(xué)習(xí)和深度學(xué)習(xí)中廣泛使用的分析方法，用于評估模型各個組件或特征的重要性及其對模型整體性能的影響。

消融實驗就像是在玩“減法游戲”或者“排除法”，通過逐一移除或修改模型的某些部分，觀察模型性能的變化，從而確定每個部分的相對重要性。

另外，在訓(xùn)練模型之前還會有一定的試錯成本。

為什么說這些成本是“隱性成本”？

因為大模型前期研發(fā)往往分散在數(shù)月甚至數(shù)年中，難以量化統(tǒng)計；消融實驗可能反復(fù)進(jìn)行，但最終僅保留最優(yōu)方案，失敗案例的成本常被忽視；企業(yè)通常不會公開內(nèi)部研發(fā)細(xì)節(jié)（如試錯次數(shù)），導(dǎo)致外部估算會產(chǎn)生偏差。

除了“隱性成本”，不同的成本計算方式也會產(chǎn)生不一樣的結(jié)果。

DeepSeek-V3這557.6萬美元訓(xùn)練成本是怎么計算的呢？按照DeepSeek-V3技術(shù)報告的邏輯，我們簡單列了一個公式：

訓(xùn)練耗費的時長（GPU小時）×H800每GPU小時的租賃價格（美元）=DeepSeek-V3訓(xùn)練成本（美元）

正式訓(xùn)練耗費的時長包括：預(yù)訓(xùn)練階段耗費266.4萬（2664K）GPU小時，擴展上下文長度階段耗費11.9萬（119K）GPU小時，后訓(xùn)練階段耗費0.5萬（5K）GPU小時，因此DeepSeek-V3的正式訓(xùn)練共耗費278.8萬（2788K）GPU小時。

而DeepSeek在技術(shù)報告中假設(shè)H800每GPU小時的租賃價格為2美元，這樣DeepSeek-V3訓(xùn)練成本就是：

2,788,000×2=5,576,000（美元）

需要注意的是，這里是按GPU小時而不是GPU個數(shù)計算，單價是按GPU租賃價格計算而不是GPU購買價格計算。

換種方式計算訓(xùn)練成本，結(jié)果就會很不一樣。

比如，為了訓(xùn)練Llama 3.1 405B，Meta使用了超過1.6萬個英偉達(dá)H100 GPU，如果按照H100 GPU的購買價格計算，這樣計算下來的訓(xùn)練成本就已高達(dá)數(shù)億美元。

我們也可以按照DeepSeek-V3一樣的租賃邏輯計算。

盡管Meta沒有透露Llama 3.1具體的訓(xùn)練成本，但是其技術(shù)報告顯示，Llama 3.1 405B的預(yù)訓(xùn)練（此處說的是預(yù)訓(xùn)練時間而非完整訓(xùn)練時間）為54天。那么，Llama 3.1 405B預(yù)訓(xùn)練階段耗費的GPU小時為：

天數(shù)×24小時×H100 GPU個數(shù)=預(yù)訓(xùn)練階段耗費的GPU小時

54×24×16,000=20,736,000

Llama 3.1 405B是2024年7月推出的，如果按照2024年初海外市場H100 GPU每GPU小時的租賃價格2.8美元（參考價格，會浮動）計算，那么其預(yù)訓(xùn)練成本約為5800萬美元。相比之下，DeepSeek-V3的532.8萬美元預(yù)訓(xùn)練成本的確是大幅降低了。

而OpenAI官方從來沒有公布過其訓(xùn)練成本，但是我們可以從側(cè)面推算。

英偉達(dá)CEO黃仁勛在NVIDIA GTC 2024主題演講中介紹，如果要訓(xùn)練一個有1.8萬億參數(shù)的GPT模型，用Hopper（H100）的話，需要約8000個GPU，耗電15兆瓦，用時90天，大約需要三個月。

雖然黃仁勛沒有明說，但根據(jù)此前多個渠道的爆料信息，這個1.8萬億參數(shù)的GPT模型就是GPT-4。

黃仁勛在NVIDIA GTC 2024 主題演講，圖片來源：英偉達(dá)B站賬號

黃仁勛在演講中解釋道：“這樣就可以訓(xùn)練出這種開創(chuàng)性的AI模型，這顯然沒有人們想象中那么昂貴，但是8000個GPU仍然是一大筆投資?！?/p>

我們同樣可以按照租賃邏輯估算一下與GPT-4規(guī)模相當(dāng)模型訓(xùn)練成本。為什么說估算？因為H100是2022年3月發(fā)布的GPU，但實際大規(guī)模供貨和云服務(wù)商部署通常在2022年底至2023年初才開始，而GPT-4在2023年3月發(fā)布，所以GPT-4的訓(xùn)練更多還是依靠A100。

假設(shè)在2024年初，也就是黃仁勛發(fā)表演講之前，訓(xùn)練一個與GPT-4規(guī)模相當(dāng)?shù)拇竽Ｐ?/strong>，其訓(xùn)練成本是：

天數(shù)×24小時×H100 GPU個數(shù)=訓(xùn)練階耗費的GPU小時

90×24×8,000=17,280,000（小時）

訓(xùn)練耗費的GPU小時×H100每GPU小時的租賃價格=訓(xùn)練成本

17,280,000×2.8=48,384,000（美元）

大約4800萬美元的訓(xùn)練費用，的確如黃仁勛所說“沒有人們想象中那么昂貴”。

而據(jù)SemiAnalysis在2023年7月發(fā)布的分析報告，OpenAI在GPT-4的訓(xùn)練中使用了約2.5萬個A100GPU，訓(xùn)練了90到100天，利用率（MFU）約為32%至36%，這種極低的利用率部分是由于大量的故障導(dǎo)致需要重新啟動檢查點。如果每個A100 GPU的使用成本大約為每小時1美元，那么僅此次訓(xùn)練的成本將達(dá)到約6300萬美元。

圖片來源：SemiAnalysis

DeepSeek-V3對標(biāo)的Claude 3.5 Sonnet的訓(xùn)練成本又是多少呢？此前Anthropic也沒有公布Claude 3.5 Sonnet的訓(xùn)練成本，但Anthropic CEO達(dá)里奧·阿莫迪（Dario Amodei）近期在一篇評價DeepSeek的文章中透露，Claude 3.5 Sonnet訓(xùn)練成本在數(shù)千萬美元（cost a few $10M's to train），他還特意說：“我不會給出具體的數(shù)字?！?/p>

“A few”在英語里通常指3到5個，所以我們估計Claude 3.5 Sonnet的訓(xùn)練費用在3000萬到5000萬美元之間。

我們統(tǒng)一按照DeepSeek-V3的GPU租賃邏輯計算，不考慮其他“隱性成本”，可以發(fā)現(xiàn)，DeepSeek-V3的訓(xùn)練成本相比其對標(biāo)模型訓(xùn)練成本大幅降低，但沒有到某些人說的“幾十分之一”的夸張程度。

需要注意的是，隨著技術(shù)和市場的發(fā)展，GPU租賃價格的降低使得企業(yè)和研究機構(gòu)能夠以更低的成本配置更多的GPU，從而讓模型訓(xùn)練降本增效。

企業(yè)還可以用更先進(jìn)的GPU降低訓(xùn)練的能耗。

還記得黃仁勛舉的例子嗎？如果要訓(xùn)練一個有1.8萬億參數(shù)的GPT模型，用Hopper（H100）的話，需要約8000個GPU，耗電15兆瓦，用時90天；如果用Blackwell（GB200）的話，需要2000個GPU，耗電僅需4兆瓦，約為Hopper的四分之一。

圖片來源：英偉達(dá)

這是先進(jìn)GPU帶來的效率提升，但是國內(nèi)AI企業(yè)由于管控，無法獲得最先進(jìn)的GPU，又是靠什么來實現(xiàn)降本增效呢？

Meta技術(shù)報告顯示，Llama 3.1 405B的預(yù)訓(xùn)練時長54天，使用了15萬億（15T）的tokens以及1.6萬個英偉達(dá)H100 GPU進(jìn)行訓(xùn)練。

DeepSeek-V3在預(yù)訓(xùn)練階段，使用了14.8萬億（14.8T）的tokens進(jìn)行訓(xùn)練，預(yù)訓(xùn)練耗時也是54天，DeepSeek-V3技術(shù)報告里也說的是“不到兩個月”：

預(yù)訓(xùn)練階段耗費的GPU小時÷H800 GPU個數(shù)÷24小時=天數(shù)

2,664,000÷2048÷24≈54（天）

但是，DeepSeek-V3僅使用了2048塊英偉達(dá)H800 GPU，盡管可能存在利用率的差異，但這與Llama 3.1 405B訓(xùn)練使用的1.6萬個英偉達(dá)H100 GPU形成了鮮明對比。而且H800是英偉達(dá)為了滿足出口限制而設(shè)計的GPU，性能低于H100。

也就是說，DeepSeek-V3在GPU比Llama 3.1 405B用得少，GPU性能也更弱的情況下，在相同的時間，完成了與Llama 3.1 405B差不多的訓(xùn)練量。

DeepSeek-V3技術(shù)報告里的這句話“DeepSeek-V3每訓(xùn)練一萬億（trillion）個token僅需18萬（180K）H800 GPU小時”成為了關(guān)鍵。

DeepSeek-V3大幅提升了模型訓(xùn)練效率。

02 DeepSeek如何降本增效？

DeepSeek-V3是一個混合專家模型 (Mixed Expert Models，以下簡稱MoE) ，旨在通過整合多個模型或“專家”的預(yù)測來提升整體模型性能。

圖片來源：DeepSeek-V3技術(shù)報告

清華大學(xué)計算機系長聘教授、高性能計算研究所所長翟季冬在《夜話DeepSeek：技術(shù)原理與未來方向》直播中介紹，之前發(fā)布的一些MoE模型，采用的是“專家數(shù)很少、每個專家很大”的架構(gòu)，但是DeepSeek采用的是“大量細(xì)粒度的專家”。

“大量細(xì)粒度的專家”可以更靈活地處理各種輸入數(shù)據(jù)，提高模型的適應(yīng)性和泛化能力。由于每個專家的規(guī)模小，計算效率更高，訓(xùn)練和存儲成本也相對較低。不過，由于專家數(shù)量眾多，可能會導(dǎo)致模型的管理和調(diào)度變得更加復(fù)雜。

翟季冬分析，為了提升DeepSeek-V3的模型訓(xùn)練效率，DeepSeek團(tuán)隊在四個方面進(jìn)行了優(yōu)化，分別是：負(fù)載均衡優(yōu)化、通信優(yōu)化、內(nèi)存優(yōu)化、計算優(yōu)化。

首先是負(fù)載均衡優(yōu)化。在MoE架構(gòu)中，負(fù)載均衡指的是將輸入數(shù)據(jù)合理分配給各個專家，使得每個專家都能充分發(fā)揮其性能，同時避免某些專家過度負(fù)載而其他專家空閑。

負(fù)載均衡是MoE訓(xùn)練中的非常大的挑戰(zhàn)，如果處理不好，那么模型在一個大規(guī)模GPU集群訓(xùn)練時，利用率就很難提升上去。

DeepSeek團(tuán)隊為了解決負(fù)載均衡的挑戰(zhàn)，創(chuàng)新提出了“Auxiliary-loss-free（無輔助損失）”負(fù)載均衡方案。

在傳統(tǒng)的MoE中，為了保證各個專家的負(fù)載均衡，通常會引入一個Auxiliary Loss（輔助損失）。這個Auxiliary Loss會強制讓每個專家處理的任務(wù)量盡量均勻。但它可能會讓模型在優(yōu)化過程中過于關(guān)注負(fù)載均衡，而忽略了模型本身的性能。

而DeepSeek的Auxiliary-Loss-Free方案，不依賴額外的輔助損失，而是在每個token的專家分配過程中直接施加一個bias（偏差值）來實現(xiàn)負(fù)載均衡，從而實現(xiàn)動態(tài)調(diào)整專家的負(fù)載。

由于這種bias的引入已經(jīng)在專家選擇的過程中起到了調(diào)控作用，使得各專家之間的token分配趨向均衡，因此就不再需要設(shè)計和調(diào)節(jié)額外的輔助損失項來“強制”負(fù)載平衡。這不僅簡化了訓(xùn)練目標(biāo)，也避免了因輔助損失權(quán)重設(shè)置不當(dāng)而可能引入的訓(xùn)練不穩(wěn)定問題。

簡單來說，這就類似紅綠燈路口，Auxiliary loss就是固定時長的紅綠燈，車流量大了，路口通行效率會降低；而Auxiliary-Loss-Free中的bias就是可以根據(jù)實時車流量動態(tài)調(diào)整時長的紅綠燈，基于當(dāng)前狀態(tài)（交通流量或?qū)＜邑?fù)載）動態(tài)調(diào)整資源分配，以達(dá)到整體平衡和高效利用。

負(fù)載均衡優(yōu)化，圖片來源：翟季冬，《夜話DeepSeek：技術(shù)原理與未來方向》

第二是通信優(yōu)化。在MoE訓(xùn)練中，使用專家并行會引入非常大的All to All通信開銷。

什么是All to All通信開銷？

假設(shè)在一個MoE中，有10個專家，每個專家被放置在一個獨立的計算節(jié)點上。在訓(xùn)練過程中，每個專家需要與其他所有專家進(jìn)行數(shù)據(jù)交換，以更新模型參數(shù)和同步訓(xùn)練狀態(tài)。這種情況下，每個節(jié)點都需要與其他9個節(jié)點進(jìn)行通信，形成了All to All的通信模式。隨著專家數(shù)量的增加，通信開銷也會顯著增加，導(dǎo)致訓(xùn)練效率下降。

DeepSeek-V3就包括1個共享專家和256個路由專家，它采用的并行訓(xùn)練策略：16路流水線并行、64路專家并行，跨8個物理節(jié)點。

DeepSeek團(tuán)隊為了降低通信開銷，提出了DualPipe算法。

DualPipe算法的核心創(chuàng)新就是能夠?qū)⒂嬎愫屯ㄐ烹A段重疊進(jìn)行。在傳統(tǒng)的訓(xùn)練過程中，計算和通信是分開進(jìn)行的，這會導(dǎo)致GPU在等待數(shù)據(jù)傳輸時出現(xiàn)空閑期，即所謂的 “流水線氣泡”（pipeline bubbles）。DualPipe算法通過確保在一個微批量（micro-batch）被計算的同時，另一個微批量可以進(jìn)行通信，精細(xì)地編排計算和通信，從而最大限度地減少這些空閑期，提高GPU的利用率。

通信優(yōu)化，圖片來源：翟季冬，《夜話DeepSeek：技術(shù)原理與未來方向》

DualPipe算法還采用了雙向流水線機制，同時從流水線的兩端處理微批量。這種策略確保了在整個訓(xùn)練過程中GPU始終保持活躍。通過這種方式，DeepSeek能夠保持良好的計算與通信比例，減少延遲，提高吞吐量。

“這里有一個需要注意的點，如果采用雙向流水線，要在GPU顯存里存兩份模型參數(shù)。大模型訓(xùn)練內(nèi)存使用非常重要，為了解決這個問題，它采用了64路的專家并行，雙流水可以非常有效地降低流水線bubble?！钡约径f。

通信優(yōu)化，圖片來源：翟季冬，《夜話DeepSeek：技術(shù)原理與未來方向》

此外，DeepSeek的通信優(yōu)化還包括跨節(jié)點通信優(yōu)化以及Warp Specialization技術(shù)。

通信優(yōu)化，圖片來源：翟季冬，《夜話DeepSeek：技術(shù)原理與未來方向》

第三是內(nèi)存優(yōu)化。包括了重計算、使用CPU內(nèi)存和參數(shù)共享。

大模型訓(xùn)練往往存在顯存瓶頸。重計算的核心思想是在前向傳播過程中，只保留少量關(guān)鍵的中間結(jié)果，而將其余的中間結(jié)果釋放掉。當(dāng)在反向傳播過程中需要用到這些已釋放的中間結(jié)果時，再重新執(zhí)行前向傳播中的相應(yīng)部分來計算得到。這種方法通過增加一定的計算量，顯著降低了內(nèi)存消耗，是一種“以時間換空間”的策略。

這可以理解為一種在大模型訓(xùn)練過程中“偷懶”的技巧。

同時，DeepSeek還把一些數(shù)據(jù)，包括像模型參數(shù)的指數(shù)移動平均（EMA），存到CPU內(nèi)存，從而節(jié)約GPU顯存；將主模型與MTP（Multi-Token Prediction）模塊的output head和embedding部署在相同節(jié)點，最大化地共享參數(shù)空間。

內(nèi)存優(yōu)化，圖片來源：翟季冬，《夜話DeepSeek：技術(shù)原理與未來方向》

第四是計算優(yōu)化。為了提升訓(xùn)練效率，DeepSeek采用了混合精度訓(xùn)練策略。

DeepSeek引入了英偉達(dá)FP8混合精度訓(xùn)練框架，并首次在超大規(guī)模模型上驗證了其有效性。通過支持FP8計算和存儲，DeepSeek實現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用。FP8訓(xùn)練在相同加速平臺上的峰值性能顯著超越FP16/BF16，并且模型參數(shù)越大，訓(xùn)練加速效果越好。

計算優(yōu)化，圖片來源：翟季冬，《夜話DeepSeek：技術(shù)原理與未來方向》

總的來說，翟季冬認(rèn)為：DeepSeek充分挖掘了算法、軟件、硬件性能，實現(xiàn)了協(xié)同創(chuàng)新；其軟件相對靈活，軟件賦能硬件，彌補了硬件的很多限制；優(yōu)秀的系統(tǒng)軟件能夠充分釋放底層硬件的潛力。

DeepSeek正是通過這一步步的優(yōu)化，讓整個模型的訓(xùn)練效率得到提升，并降低訓(xùn)練成本。

03 “小米加步槍”式的成功

經(jīng)歷了春節(jié)假期的喧囂，我們對于DeepSeek的討論應(yīng)趨向理性。

我們不應(yīng)神話DeepSeek，也不要因為外部的貶低而看輕DeepSeek，這些都對DeepSeek團(tuán)隊不公平。其實，DeepSeek就是一種“小米加步槍”式的成功。

行云集成電路創(chuàng)始人季宇最近跟我們聊起DeepSeek時說，創(chuàng)新的意識其實國內(nèi)根本不缺，但缺乏Known-Why的創(chuàng)新往往會走向類似賭徒的歧途。

“創(chuàng)新不是簡簡單單的不一樣的技術(shù)路線，國內(nèi)其實不缺乏創(chuàng)新性和天馬行空的想象，其實無論AI行業(yè)還是算力芯片行業(yè)，都有無數(shù)走非Transformer架構(gòu)、走非GPU架構(gòu)、非馮諾伊曼架構(gòu)的差異化路線，但是基本都陷入了用差異化的技術(shù)路線主流技術(shù)路線替代品的邏輯里。”季宇說。

但是DeepSeek的創(chuàng)新是一步一個腳印的。

季宇告訴我們，第一性原理思考問題很多人都在講，但實際上非常困難。第一性原理需要深入推敲，需要對每個論斷的邊界條件，需要深入考慮各個層級技術(shù)的細(xì)節(jié)。

“之前跟在DeepSeek的一個師弟交流，梁老板（DeepSeek創(chuàng)始人梁文鋒）對他寫的CUDA Kernel里每個線程具體在干什么事情都非常清楚，只有這樣才能從全局視角去思考突圍的方式，真正把創(chuàng)新做成。”季宇說。

這一點在另一位投資人那里也得到了印證。這位投資人去年曾問DeepSeek的人：“為什么你們的模型做得好？”

DeepSeek的人回答，因為我們老板自己在讀論文、寫代碼、搞招聘。

關(guān)于DeepSeek的成功，你可以說他們有豐富的GPU儲備，可以說他們對模型架構(gòu)進(jìn)行了創(chuàng)新，但其成功內(nèi)核往往是樸實而簡單的。

DeepSeek創(chuàng)始人梁文鋒去年接受《暗涌》采訪時說過的一句話，既謙虛又意味深長。

他說：“我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚。”

**參考資料：

DeepSeek-V3 Technical Report,DeepSeek

The Llama 3 Herd of Models,Meta

GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE,SemiAnalysis

《夜話DeepSeek：技術(shù)原理與未來方向》，中國計算機學(xué)會青年計算機科學(xué)與技術(shù)論壇（CCF YOCSEF）

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

电竞比分网-中国电竞赛事及体育赛事平台

我們應(yīng)如何看待DeepSeek的557.6萬美元訓(xùn)練成本？

我們應(yīng)如何看待DeepSeek的557.6萬美元訓(xùn)練成本？