电竞比分网-中国电竞赛事及体育赛事平台

分享

我們應(yīng)如何看待DeepSeek的557.6萬美元訓(xùn)練成本?

 一點進(jìn)步 2025-02-18 發(fā)布于山東

三個月前,我們和中國科學(xué)院院士、清華大學(xué)計算機系教授張鈸曾經(jīng)聊過一個話題:“為什么在提高算法效率上中國人會做得更好?”

張鈸告訴我們:“對中國企業(yè)來講,算法效率是生命攸關(guān)的,我們必須全力以赴。也許因為美國人有強大的算力,算法效率對他們來說只是錦上添花而已?!?/p>

當(dāng)時,我們對這句話感受還不是很深,直到后來看到了DeepSeek-V3技術(shù)報告里的這張表格。

內(nèi)容圖片

DeepSeek-V3的訓(xùn)練成本(假設(shè)H800的租賃價格為2美元/GPU小時),圖片來源:DeepSeek-V3技術(shù)報告

簡單來說,DeepSeek-V3僅使用了2048塊英偉達(dá)H800 GPU,耗費了557.6萬美元就完成了訓(xùn)練,相比同等規(guī)模的模型(如GPT-4、GPT-4o、Llama 3.1),訓(xùn)練成本大幅降低。

這樣說沒有錯,但在復(fù)雜的輿論場中也引發(fā)了一些誤讀。比如,“中國AI企業(yè)用幾百萬美元的成本打敗了美國AI企業(yè)數(shù)億美元的投入”“成本僅為國外三十分之一,硅谷恐慌”。

這種誤讀有一些客觀原因,因為OpenAI、Meta官方從來沒有公布過GPT-4、GPT-4o、Llama 3.1的訓(xùn)練成本,多數(shù)人對模型訓(xùn)練成本構(gòu)成也并不熟悉,但誤讀背后更多還是主觀原因——情緒。

AI大模型領(lǐng)域,中國AI企業(yè)一直是一個“追隨者”的角色,這次有了和硅谷巨頭“掰手腕”的機會,就像霍元甲站上了與西洋力士的比武臺,誰不想叫聲好呢?

這種情緒本身沒有錯,但也在一定程度上模糊了DeepSeek團(tuán)隊在算法、框架和硬件上的優(yōu)化協(xié)同設(shè)計的價值,而這正是DeepSeek-V3降本增效的關(guān)鍵。

01 訓(xùn)練成本差距是否有那么大?

我們查閱了技術(shù)報告,DeepSeek只公布了基座模型V3的訓(xùn)練成本,并沒有公布推理模型R1的訓(xùn)練成本。

DeepSeek-V3技術(shù)報告顯示,該模型的正式訓(xùn)練成本包括三個階段:預(yù)訓(xùn)練(pre-training)、擴展上下文(context extension)、后訓(xùn)練(post-training),共計557.6萬美元。

但是這557.6萬美元的訓(xùn)練成本并不包括前期研究以及關(guān)于架構(gòu)、算法或數(shù)據(jù)的消融實驗所產(chǎn)生的成本。

前期研究、消融實驗屬于“隱性成本”,但不容忽視。

在一個AI企業(yè)正式訓(xùn)練一個模型之前,需要進(jìn)行大量的前期研究,包括對算法的理論研究、對硬件性能的探索、對數(shù)據(jù)集的分析等。

而消融實驗(Ablation Study)是一種在機器學(xué)習(xí)和深度學(xué)習(xí)中廣泛使用的分析方法,用于評估模型各個組件或特征的重要性及其對模型整體性能的影響。

消融實驗就像是在玩“減法游戲”或者“排除法”,通過逐一移除或修改模型的某些部分,觀察模型性能的變化,從而確定每個部分的相對重要性。

另外,在訓(xùn)練模型之前還會有一定的試錯成本。

為什么說這些成本是“隱性成本”?

因為大模型前期研發(fā)往往分散在數(shù)月甚至數(shù)年中,難以量化統(tǒng)計;消融實驗可能反復(fù)進(jìn)行,但最終僅保留最優(yōu)方案,失敗案例的成本常被忽視;企業(yè)通常不會公開內(nèi)部研發(fā)細(xì)節(jié)(如試錯次數(shù)),導(dǎo)致外部估算會產(chǎn)生偏差。

除了“隱性成本”,不同的成本計算方式也會產(chǎn)生不一樣的結(jié)果。

DeepSeek-V3這557.6萬美元訓(xùn)練成本是怎么計算的呢?按照DeepSeek-V3技術(shù)報告的邏輯,我們簡單列了一個公式:

訓(xùn)練耗費的時長(GPU小時)×H800每GPU小時的租賃價格(美元)=DeepSeek-V3訓(xùn)練成本(美元)

正式訓(xùn)練耗費的時長包括:預(yù)訓(xùn)練階段耗費266.4萬(2664K)GPU小時,擴展上下文長度階段耗費11.9萬(119K)GPU小時,后訓(xùn)練階段耗費0.5萬(5K)GPU小時,因此DeepSeek-V3的正式訓(xùn)練共耗費278.8萬(2788K)GPU小時。

而DeepSeek在技術(shù)報告中假設(shè)H800每GPU小時的租賃價格為2美元,這樣DeepSeek-V3訓(xùn)練成本就是:

2,788,000×2=5,576,000(美元)

需要注意的是,這里是按GPU小時而不是GPU個數(shù)計算,單價是按GPU租賃價格計算而不是GPU購買價格計算。

換種方式計算訓(xùn)練成本,結(jié)果就會很不一樣。

比如,為了訓(xùn)練Llama 3.1 405B,Meta使用了超過1.6萬個英偉達(dá)H100 GPU,如果按照H100 GPU的購買價格計算,這樣計算下來的訓(xùn)練成本就已高達(dá)數(shù)億美元。

我們也可以按照DeepSeek-V3一樣的租賃邏輯計算。

盡管Meta沒有透露Llama 3.1具體的訓(xùn)練成本,但是其技術(shù)報告顯示,Llama 3.1 405B的預(yù)訓(xùn)練(此處說的是預(yù)訓(xùn)練時間而非完整訓(xùn)練時間)為54天。那么,Llama 3.1 405B預(yù)訓(xùn)練階段耗費的GPU小時為:

天數(shù)×24小時×H100 GPU個數(shù)=預(yù)訓(xùn)練階段耗費的GPU小時

54×24×16,000=20,736,000

Llama 3.1 405B是2024年7月推出的,如果按照2024年初海外市場H100 GPU每GPU小時的租賃價格2.8美元(參考價格,會浮動)計算,那么其預(yù)訓(xùn)練成本約為5800萬美元。相比之下,DeepSeek-V3的532.8萬美元預(yù)訓(xùn)練成本的確是大幅降低了。

而OpenAI官方從來沒有公布過其訓(xùn)練成本,但是我們可以從側(cè)面推算。

英偉達(dá)CEO黃仁勛在NVIDIA GTC 2024主題演講中介紹,如果要訓(xùn)練一個有1.8萬億參數(shù)的GPT模型,用Hopper(H100)的話,需要約8000個GPU,耗電15兆瓦,用時90天,大約需要三個月。

雖然黃仁勛沒有明說,但根據(jù)此前多個渠道的爆料信息,這個1.8萬億參數(shù)的GPT模型就是GPT-4。

內(nèi)容圖片

黃仁勛在NVIDIA GTC 2024 主題演講,圖片來源:英偉達(dá)B站賬號

黃仁勛在演講中解釋道:“這樣就可以訓(xùn)練出這種開創(chuàng)性的AI模型,這顯然沒有人們想象中那么昂貴,但是8000個GPU仍然是一大筆投資?!?/p>

我們同樣可以按照租賃邏輯估算一下與GPT-4規(guī)模相當(dāng)模型訓(xùn)練成本。為什么說估算?因為H100是2022年3月發(fā)布的GPU,但實際大規(guī)模供貨和云服務(wù)商部署通常在2022年底至2023年初才開始,而GPT-4在2023年3月發(fā)布,所以GPT-4的訓(xùn)練更多還是依靠A100。

假設(shè)在2024年初,也就是黃仁勛發(fā)表演講之前,訓(xùn)練一個與GPT-4規(guī)模相當(dāng)?shù)拇竽P?/strong>,其訓(xùn)練成本是:

天數(shù)×24小時×H100 GPU個數(shù)=訓(xùn)練階耗費的GPU小時

90×24×8,000=17,280,000(小時)

訓(xùn)練耗費的GPU小時×H100每GPU小時的租賃價格=訓(xùn)練成本

17,280,000×2.8=48,384,000(美元)

大約4800萬美元的訓(xùn)練費用,的確如黃仁勛所說“沒有人們想象中那么昂貴”。

而據(jù)SemiAnalysis在2023年7月發(fā)布的分析報告,OpenAI在GPT-4的訓(xùn)練中使用了約2.5萬個A100GPU,訓(xùn)練了90到100天,利用率(MFU)約為32%至36%,這種極低的利用率部分是由于大量的故障導(dǎo)致需要重新啟動檢查點。如果每個A100 GPU的使用成本大約為每小時1美元,那么僅此次訓(xùn)練的成本將達(dá)到約6300萬美元。

內(nèi)容圖片

圖片來源:SemiAnalysis

DeepSeek-V3對標(biāo)的Claude 3.5 Sonnet的訓(xùn)練成本又是多少呢?此前Anthropic也沒有公布Claude 3.5 Sonnet的訓(xùn)練成本,但Anthropic CEO達(dá)里奧·阿莫迪(Dario Amodei)近期在一篇評價DeepSeek的文章中透露,Claude 3.5 Sonnet訓(xùn)練成本在數(shù)千萬美元(cost a few $10M's to train),他還特意說:“我不會給出具體的數(shù)字?!?/p>

“A few”在英語里通常指3到5個,所以我們估計Claude 3.5 Sonnet的訓(xùn)練費用在3000萬到5000萬美元之間。

我們統(tǒng)一按照DeepSeek-V3的GPU租賃邏輯計算,不考慮其他“隱性成本”,可以發(fā)現(xiàn),DeepSeek-V3的訓(xùn)練成本相比其對標(biāo)模型訓(xùn)練成本大幅降低,但沒有到某些人說的“幾十分之一”的夸張程度。

內(nèi)容圖片

需要注意的是,隨著技術(shù)和市場的發(fā)展,GPU租賃價格的降低使得企業(yè)和研究機構(gòu)能夠以更低的成本配置更多的GPU,從而讓模型訓(xùn)練降本增效。

企業(yè)還可以用更先進(jìn)的GPU降低訓(xùn)練的能耗。

還記得黃仁勛舉的例子嗎?如果要訓(xùn)練一個有1.8萬億參數(shù)的GPT模型,用Hopper(H100)的話,需要約8000個GPU,耗電15兆瓦,用時90天;如果用Blackwell(GB200)的話,需要2000個GPU,耗電僅需4兆瓦,約為Hopper的四分之一。

內(nèi)容圖片

圖片來源:英偉達(dá)

這是先進(jìn)GPU帶來的效率提升,但是國內(nèi)AI企業(yè)由于管控,無法獲得最先進(jìn)的GPU,又是靠什么來實現(xiàn)降本增效呢?

Meta技術(shù)報告顯示,Llama 3.1 405B的預(yù)訓(xùn)練時長54天,使用了15萬億(15T)的tokens以及1.6萬個英偉達(dá)H100 GPU進(jìn)行訓(xùn)練。

DeepSeek-V3在預(yù)訓(xùn)練階段,使用了14.8萬億(14.8T)的tokens進(jìn)行訓(xùn)練,預(yù)訓(xùn)練耗時也是54天,DeepSeek-V3技術(shù)報告里也說的是“不到兩個月”:

預(yù)訓(xùn)練階段耗費的GPU小時÷H800 GPU個數(shù)÷24小時=天數(shù)

2,664,000÷2048÷24≈54(天)

但是,DeepSeek-V3僅使用了2048塊英偉達(dá)H800 GPU,盡管可能存在利用率的差異,但這與Llama 3.1 405B訓(xùn)練使用的1.6萬個英偉達(dá)H100 GPU形成了鮮明對比。而且H800是英偉達(dá)為了滿足出口限制而設(shè)計的GPU,性能低于H100。

也就是說,DeepSeek-V3在GPU比Llama 3.1 405B用得少,GPU性能也更弱的情況下,在相同的時間,完成了與Llama 3.1 405B差不多的訓(xùn)練量。

DeepSeek-V3技術(shù)報告里的這句話“DeepSeek-V3每訓(xùn)練一萬億(trillion)個token僅需18萬(180K)H800 GPU小時”成為了關(guān)鍵。

DeepSeek-V3大幅提升了模型訓(xùn)練效率。

02 DeepSeek如何降本增效?

DeepSeek-V3是一個混合專家模型 (Mixed Expert Models,以下簡稱MoE) ,旨在通過整合多個模型或“專家”的預(yù)測來提升整體模型性能。

內(nèi)容圖片

圖片來源:DeepSeek-V3技術(shù)報告

清華大學(xué)計算機系長聘教授、高性能計算研究所所長翟季冬在《夜話DeepSeek:技術(shù)原理與未來方向》直播中介紹,之前發(fā)布的一些MoE模型,采用的是“專家數(shù)很少、每個專家很大”的架構(gòu),但是DeepSeek采用的是“大量細(xì)粒度的專家”。

“大量細(xì)粒度的專家”可以更靈活地處理各種輸入數(shù)據(jù),提高模型的適應(yīng)性和泛化能力。由于每個專家的規(guī)模小,計算效率更高,訓(xùn)練和存儲成本也相對較低。不過,由于專家數(shù)量眾多,可能會導(dǎo)致模型的管理和調(diào)度變得更加復(fù)雜。

翟季冬分析,為了提升DeepSeek-V3的模型訓(xùn)練效率,DeepSeek團(tuán)隊在四個方面進(jìn)行了優(yōu)化,分別是:負(fù)載均衡優(yōu)化、通信優(yōu)化、內(nèi)存優(yōu)化、計算優(yōu)化。

首先是負(fù)載均衡優(yōu)化。在MoE架構(gòu)中,負(fù)載均衡指的是將輸入數(shù)據(jù)合理分配給各個專家,使得每個專家都能充分發(fā)揮其性能,同時避免某些專家過度負(fù)載而其他專家空閑。

負(fù)載均衡是MoE訓(xùn)練中的非常大的挑戰(zhàn),如果處理不好,那么模型在一個大規(guī)模GPU集群訓(xùn)練時,利用率就很難提升上去。

DeepSeek團(tuán)隊為了解決負(fù)載均衡的挑戰(zhàn),創(chuàng)新提出了“Auxiliary-loss-free(無輔助損失)”負(fù)載均衡方案。

在傳統(tǒng)的MoE中,為了保證各個專家的負(fù)載均衡,通常會引入一個Auxiliary Loss(輔助損失)。這個Auxiliary Loss會強制讓每個專家處理的任務(wù)量盡量均勻。但它可能會讓模型在優(yōu)化過程中過于關(guān)注負(fù)載均衡,而忽略了模型本身的性能。

而DeepSeek的Auxiliary-Loss-Free方案,不依賴額外的輔助損失,而是在每個token的專家分配過程中直接施加一個bias(偏差值)來實現(xiàn)負(fù)載均衡,從而實現(xiàn)動態(tài)調(diào)整專家的負(fù)載。

由于這種bias的引入已經(jīng)在專家選擇的過程中起到了調(diào)控作用,使得各專家之間的token分配趨向均衡,因此就不再需要設(shè)計和調(diào)節(jié)額外的輔助損失項來“強制”負(fù)載平衡。這不僅簡化了訓(xùn)練目標(biāo),也避免了因輔助損失權(quán)重設(shè)置不當(dāng)而可能引入的訓(xùn)練不穩(wěn)定問題。

簡單來說,這就類似紅綠燈路口,Auxiliary loss就是固定時長的紅綠燈,車流量大了,路口通行效率會降低;而Auxiliary-Loss-Free中的bias就是可以根據(jù)實時車流量動態(tài)調(diào)整時長的紅綠燈,基于當(dāng)前狀態(tài)(交通流量或?qū)<邑?fù)載)動態(tài)調(diào)整資源分配,以達(dá)到整體平衡和高效利用。

內(nèi)容圖片

負(fù)載均衡優(yōu)化,圖片來源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來方向》

第二是通信優(yōu)化。在MoE訓(xùn)練中,使用專家并行會引入非常大的All to All通信開銷。

什么是All to All通信開銷?

假設(shè)在一個MoE中,有10個專家,每個專家被放置在一個獨立的計算節(jié)點上。在訓(xùn)練過程中,每個專家需要與其他所有專家進(jìn)行數(shù)據(jù)交換,以更新模型參數(shù)和同步訓(xùn)練狀態(tài)。這種情況下,每個節(jié)點都需要與其他9個節(jié)點進(jìn)行通信,形成了All to All的通信模式。隨著專家數(shù)量的增加,通信開銷也會顯著增加,導(dǎo)致訓(xùn)練效率下降。

DeepSeek-V3就包括1個共享專家和256個路由專家,它采用的并行訓(xùn)練策略:16路流水線并行、64路專家并行,跨8個物理節(jié)點。

DeepSeek團(tuán)隊為了降低通信開銷,提出了DualPipe算法。

DualPipe算法的核心創(chuàng)新就是能夠?qū)⒂嬎愫屯ㄐ烹A段重疊進(jìn)行。在傳統(tǒng)的訓(xùn)練過程中,計算和通信是分開進(jìn)行的,這會導(dǎo)致GPU在等待數(shù)據(jù)傳輸時出現(xiàn)空閑期,即所謂的 “流水線氣泡”(pipeline bubbles)。DualPipe算法通過確保在一個微批量(micro-batch)被計算的同時,另一個微批量可以進(jìn)行通信,精細(xì)地編排計算和通信,從而最大限度地減少這些空閑期,提高GPU的利用率。

內(nèi)容圖片

通信優(yōu)化,圖片來源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來方向》

DualPipe算法還采用了雙向流水線機制,同時從流水線的兩端處理微批量。這種策略確保了在整個訓(xùn)練過程中GPU始終保持活躍。通過這種方式,DeepSeek能夠保持良好的計算與通信比例,減少延遲,提高吞吐量。

“這里有一個需要注意的點,如果采用雙向流水線,要在GPU顯存里存兩份模型參數(shù)。大模型訓(xùn)練內(nèi)存使用非常重要,為了解決這個問題,它采用了64路的專家并行,雙流水可以非常有效地降低流水線bubble?!钡约径f。

內(nèi)容圖片

通信優(yōu)化,圖片來源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來方向》

此外,DeepSeek的通信優(yōu)化還包括跨節(jié)點通信優(yōu)化以及Warp Specialization技術(shù)。

內(nèi)容圖片

通信優(yōu)化,圖片來源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來方向》

第三是內(nèi)存優(yōu)化。包括了重計算、使用CPU內(nèi)存和參數(shù)共享。

大模型訓(xùn)練往往存在顯存瓶頸。重計算的核心思想是在前向傳播過程中,只保留少量關(guān)鍵的中間結(jié)果,而將其余的中間結(jié)果釋放掉。當(dāng)在反向傳播過程中需要用到這些已釋放的中間結(jié)果時,再重新執(zhí)行前向傳播中的相應(yīng)部分來計算得到。這種方法通過增加一定的計算量,顯著降低了內(nèi)存消耗,是一種“以時間換空間”的策略。

這可以理解為一種在大模型訓(xùn)練過程中“偷懶”的技巧。

同時,DeepSeek還把一些數(shù)據(jù),包括像模型參數(shù)的指數(shù)移動平均(EMA),存到CPU內(nèi)存,從而節(jié)約GPU顯存;將主模型與MTP(Multi-Token Prediction)模塊的output head和embedding部署在相同節(jié)點,最大化地共享參數(shù)空間。

內(nèi)容圖片

內(nèi)存優(yōu)化,圖片來源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來方向》

第四是計算優(yōu)化。為了提升訓(xùn)練效率,DeepSeek采用了混合精度訓(xùn)練策略。

DeepSeek引入了英偉達(dá)FP8混合精度訓(xùn)練框架,并首次在超大規(guī)模模型上驗證了其有效性。通過支持FP8計算和存儲,DeepSeek實現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用。FP8訓(xùn)練在相同加速平臺上的峰值性能顯著超越FP16/BF16,并且模型參數(shù)越大,訓(xùn)練加速效果越好。

內(nèi)容圖片

計算優(yōu)化,圖片來源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來方向》

總的來說,翟季冬認(rèn)為:DeepSeek充分挖掘了算法、軟件、硬件性能,實現(xiàn)了協(xié)同創(chuàng)新;其軟件相對靈活,軟件賦能硬件,彌補了硬件的很多限制;優(yōu)秀的系統(tǒng)軟件能夠充分釋放底層硬件的潛力。

DeepSeek正是通過這一步步的優(yōu)化,讓整個模型的訓(xùn)練效率得到提升,并降低訓(xùn)練成本。

03 “小米加步槍”式的成功

經(jīng)歷了春節(jié)假期的喧囂,我們對于DeepSeek的討論應(yīng)趨向理性。

我們不應(yīng)神話DeepSeek,也不要因為外部的貶低而看輕DeepSeek,這些都對DeepSeek團(tuán)隊不公平。其實,DeepSeek就是一種“小米加步槍”式的成功。

行云集成電路創(chuàng)始人季宇最近跟我們聊起DeepSeek時說,創(chuàng)新的意識其實國內(nèi)根本不缺,但缺乏Known-Why的創(chuàng)新往往會走向類似賭徒的歧途。

“創(chuàng)新不是簡簡單單的不一樣的技術(shù)路線,國內(nèi)其實不缺乏創(chuàng)新性和天馬行空的想象,其實無論AI行業(yè)還是算力芯片行業(yè),都有無數(shù)走非Transformer架構(gòu)、走非GPU架構(gòu)、非馮諾伊曼架構(gòu)的差異化路線,但是基本都陷入了用差異化的技術(shù)路線主流技術(shù)路線替代品的邏輯里。”季宇說。

但是DeepSeek的創(chuàng)新是一步一個腳印的。

季宇告訴我們,第一性原理思考問題很多人都在講,但實際上非常困難。第一性原理需要深入推敲,需要對每個論斷的邊界條件,需要深入考慮各個層級技術(shù)的細(xì)節(jié)。

“之前跟在DeepSeek的一個師弟交流,梁老板(DeepSeek創(chuàng)始人梁文鋒)對他寫的CUDA Kernel里每個線程具體在干什么事情都非常清楚,只有這樣才能從全局視角去思考突圍的方式,真正把創(chuàng)新做成。”季宇說。

這一點在另一位投資人那里也得到了印證。這位投資人去年曾問DeepSeek的人:“為什么你們的模型做得好?”

DeepSeek的人回答,因為我們老板自己在讀論文、寫代碼、搞招聘。

關(guān)于DeepSeek的成功,你可以說他們有豐富的GPU儲備,可以說他們對模型架構(gòu)進(jìn)行了創(chuàng)新,但其成功內(nèi)核往往是樸實而簡單的。

DeepSeek創(chuàng)始人梁文鋒去年接受《暗涌》采訪時說過的一句話,既謙虛又意味深長。

他說:“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”

**參考資料:

DeepSeek-V3 Technical Report,DeepSeek

The Llama 3 Herd of Models,Meta

GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE,SemiAnalysis

《夜話DeepSeek:技術(shù)原理與未來方向》,中國計算機學(xué)會青年計算機科學(xué)與技術(shù)論壇(CCF YOCSEF)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多