电竞比分网-中国电竞赛事及体育赛事平台

分享

一座 1 GW 的 AI 計(jì)算中心需要多少錢、多少電、多少基礎(chǔ)建設(shè)

 liuaqbb 2025-11-03 發(fā)布于北京

2025 年 10 月 23 日,Anthropic 宣布與 Google Cloud 擴(kuò)大合作,簽署了一份價(jià)值「數(shù)百億美元」的協(xié)議。將獲得多達(dá) 100 萬(wàn)顆 Google 最先進(jìn) TPU (Tensor Processing Unit) 的使用權(quán),預(yù)計(jì)在 2026 年帶來(lái)遠(yuǎn)超 1 Gigawatt (GW) 的運(yùn)算容量。

圖片

這次合作不僅是 Google 第七代 TPU 晶片「Ironwood」的首次大規(guī)模商業(yè)部署,也標(biāo)志著 Anthropic 在繼 Amazon (AMZN) 投入 80 億美元之后,迎來(lái)的第二個(gè)大規(guī)模云端合作案。 

但是「Gigawatt (GW) 的 AI 計(jì)算中心」究竟是什么概念?這樣的能耗規(guī)模,幾乎等同于一座中型核電廠或可支撐上百萬(wàn)戶家庭的用電量。當(dāng) Anthropic 準(zhǔn)備啟用超過(guò)百萬(wàn)顆 TPU 時(shí),這不只是硬體升級(jí),而是進(jìn)入一個(gè)以能量為界的新競(jìng)爭(zhēng)時(shí)代。

圖片

同時(shí),Meta、xAI 等公司也在打造自己的超級(jí) AI 計(jì)算中心 - 從德州延伸到北歐,它們同樣宣稱要達(dá)到 Gigawatt 級(jí)的算力。那么,這些「十億瓦特級(jí)」的 AI 基礎(chǔ)設(shè)施,背后到底象征著什么樣的技術(shù)與產(chǎn)業(yè)變化?

01

GW (Gigawatt) 級(jí) AI 中心的真實(shí)成本結(jié)構(gòu)

建造一座 1 GW 規(guī)模的 AI 計(jì)算中心,其總成本是一個(gè)驚人的數(shù)字,通常落在 100 億至 200 億美元之間。然而,這個(gè)數(shù)字的呈現(xiàn)方式極具迷惑性,常常因報(bào)告口徑不同而產(chǎn)生巨大差異,導(dǎo)致公眾對(duì) AI 基礎(chǔ)建設(shè)的真實(shí)成本產(chǎn)生誤解。

報(bào)告指出,同一個(gè) 1 GW 設(shè)施,可能因計(jì)算方式不同而被報(bào)導(dǎo)為截然不同的數(shù)字:

  • 100 億美元:這通常僅指「基礎(chǔ)建設(shè)資本支出」,即建筑、電力、冷卻等硬體設(shè)施的建造成本。

  • 300 億美元:這個(gè)數(shù)字則可能只計(jì)算了「硬體資本支出」,主要是指 GPU、伺服器等運(yùn)算設(shè)備的成本。

  • 450 億美元:這是「總資本支出」,包含了基礎(chǔ)建設(shè)與運(yùn)算硬體的總和。

  • 600 億美元:此數(shù)字則可能代表了「含云端服務(wù)商利潤(rùn)的五年合約總額」,是企業(yè)客戶實(shí)際需要支付的總費(fèi)用。

為了更精確地理解成本結(jié)構(gòu),我們可以參考 Morgan Stanley 的研究模型。該模型分析了一座 100 MW (百萬(wàn)瓦) 的 AI 數(shù)據(jù)中心,其成本為 33.5 億美元。其中,GPU 等運(yùn)算硬體占 41% (約 13.5 億美元),其余 59% 用于電力、冷卻等基礎(chǔ)建設(shè)。

圖片

若我們將此比例直接放大十倍至 1 GW 規(guī)模,硬體成本將高達(dá) 135 億美元,基礎(chǔ)建設(shè)成本為 200 億美元,總計(jì) 335 億美元。不過(guò),考慮到規(guī)模經(jīng)濟(jì)效應(yīng)通常能帶來(lái) 15-25% 的單位成本下降,因此一個(gè)更合理的實(shí)際成本估算應(yīng)落在 250 至 300 億美元之間。

另一份分析提供了更細(xì)致的成本與時(shí)間維度分解,將 1 GW 設(shè)施的資本支出分為兩大主要部分:

  1. 基礎(chǔ)建設(shè):成本約為 100-150 億美元,涵蓋建筑物、冷卻系統(tǒng)、電力設(shè)施等。這部分的資產(chǎn)使用年限較長(zhǎng),約為 10-15 年。若采用債務(wù)融資,每年的攤還成本約為 10-20 億美元。

  2. 運(yùn)算硬體:成本高達(dá) 300-350 億美元,包括伺服器、網(wǎng)路設(shè)備、人力成本等。這部分資產(chǎn)的技術(shù)迭代速度極快,使用周期僅約 5 年,因此每年的折舊或攤還成本高達(dá) 60-70 億美元。

除了資本支出,還有龐大的營(yíng)運(yùn)支出,主要是電力和維護(hù)費(fèi)用,每年約需 20-25 億美元。綜合計(jì)算,維持一座 1 GW 設(shè)施運(yùn)作的總年化成本高達(dá) 90-110 億美元。

由于運(yùn)算硬體的投資者需要在 5 年內(nèi)收回成本,因此云端服務(wù)商提供 1 GW 運(yùn)算容量的合約通常會(huì)簽訂五年,總額至少在 450-550 億美元之間。若再計(jì)入云端服務(wù)商的利潤(rùn),最終客戶看到的報(bào)價(jià)可能高達(dá) 550-650 億美元。

值得注意的是,AI 晶片巨頭 NVIDIA (NVDA) 在整體 AI 成本結(jié)構(gòu)中的實(shí)際占比,遠(yuǎn)低于普遍認(rèn)知。雖然在一座 1 GW 級(jí)的 AI 計(jì)算中心中,NVIDIA GPU 的采購(gòu)成本可能占總資本支出的 40–50%(約 200 億美元),但考慮到 NVIDIA 約 70% 的高毛利率,其產(chǎn)品實(shí)際制造成本遠(yuǎn)低于售價(jià)。換算下來(lái),NVIDIA 的實(shí)際毛利約為 140 億美元。

Economic costs of data-centers? - Thunder Said Energy

然而,這僅是硬體層面的成本。 AI 資料中心的總支出中,除了 GPU 采購(gòu),還包含龐大的營(yíng)運(yùn)開銷:電力與冷卻、網(wǎng)路與儲(chǔ)存基礎(chǔ)設(shè)施、建筑與折舊、人力與云端平臺(tái)利潤(rùn)。因此,即便 AI 公司完全轉(zhuǎn)向非 NVIDIA 晶片,理論上最多也只能節(jié)省總成本的約 20–25%。

這個(gè)數(shù)字揭示了一個(gè)關(guān)鍵事實(shí):AI 運(yùn)算的真正瓶頸并非晶片價(jià)格,而是能源、冷卻與云端基礎(chǔ)設(shè)施的營(yíng)運(yùn)成本。 換句話說(shuō),想要真正壓低 AI 成本,光換掉 NVIDIA 晶片是不夠的,更需要從能源效率、模型架構(gòu)與系統(tǒng)設(shè)計(jì)層面進(jìn)行優(yōu)化。

02

AI 晶片技術(shù)與市場(chǎng)對(duì)決

在 AI 加速器市場(chǎng)中,NVIDIA、AMD 和 Google 形成了三足鼎立之勢(shì)。它們?cè)诩軜?gòu)、性能和成本上各有千秋,選擇哪個(gè)平臺(tái),對(duì)數(shù)據(jù)中心的經(jīng)濟(jì)效益有著根本性的影響。

NVIDIA (NVDA):市場(chǎng)主導(dǎo)者與成熟的生態(tài)系

NVIDIA 以其 80-90% 的市場(chǎng)占有率,在 AI 加速器市場(chǎng)中處于絕對(duì)的領(lǐng)導(dǎo)地位。

NVIDIA H100, H200, B200 PCIe vs. SXM5

  • H100 (Hopper 架構(gòu)):作為目前部署最廣泛的 AI 晶片,H100 采用 4nm 制程,配備 80GB HBM3 記憶體,頻寬達(dá) 3.35 TB/s。在 FP8 精度下,其密集運(yùn)算效能為 1,979 TFLOPS。單顆采購(gòu)價(jià)格在 2.5-4 萬(wàn)美元之間。

  • H200:H100 的強(qiáng)化版,憶體升級(jí)至 141GB HBM3e,頻寬提升 40% 至 4.8 TB/s。在測(cè)試中效能提升 45%,推理能耗降低 50%。單顆售價(jià)約 3.5-4 萬(wàn)美元。

  • B200 (Blackwell 架構(gòu)):NVIDIA 最新的旗艦產(chǎn)品,雙晶片設(shè)計(jì),192GB HBM3e 記憶體,頻寬高達(dá) 8 TB/s。在 FP4 精度下,其密集運(yùn)算效能達(dá)到驚人的 9 PFLOPS(千萬(wàn)億次浮點(diǎn)運(yùn)算),訓(xùn)練速度是 H100 的 3 倍,推理速度更是 H100 的 15 倍。分析師估計(jì)其單價(jià)為 3.5-4 萬(wàn)美元,而包含 72 顆 B200 晶片的 NVL72 機(jī)柜總價(jià)高達(dá) 300 萬(wàn)美元。

NVIDIA 最大的護(hù)城河在于其成熟無(wú)比的軟體生態(tài)系 CUDA。自 2007 年推出以來(lái),CUDA 已經(jīng)發(fā)展了近 20 年,擁有最龐大的開發(fā)者社群和最完善的框架支援(如 PyTorch、TensorFlow)。

所有最新的 AI 軟體功能,如 FlashAttention,幾乎都是最先在 CUDA 上實(shí)現(xiàn)的。這個(gè)生態(tài)系優(yōu)勢(shì)極大地縮短了開發(fā)時(shí)間,降低了工程成本,使得全球超過(guò) 95% 的 AI 工作負(fù)載都運(yùn)行在 CUDA 之上。

AMD:以價(jià)格優(yōu)勢(shì)發(fā)起挑戰(zhàn)

AMD 的 MI300X 晶片以其強(qiáng)大的性能和極具吸引力的價(jià)格,成為 NVIDIA 的有力挑戰(zhàn)者。

AMD Instinct? MI300X 加速器

  • MI300X:采用 CDNA 3 架構(gòu),配備了與 B200 同級(jí)的 192GB HBM3 記憶體,記憶體頻寬達(dá) 5.3 TB/s。在 FP8 精度下,其性能比 H100 高出約 30%,而功耗僅略高于 H100。

MI300X 的單顆采購(gòu)價(jià)估計(jì)僅為 1-2 萬(wàn)美元,比 H100 便宜了 2.5-4 倍。云端租用價(jià)格也同樣顯著低于 NVIDIA。

這種性價(jià)比使得 Microsoft (MSFT)、Oracle (ORCL)、Meta (META) 等大型云端服務(wù)商開始大量采購(gòu) MI300X,作為其成本優(yōu)化方案的重要組成部分。在特定工作負(fù)載下,其性能可達(dá) H100 的 1.3-3 倍(高度依賴軟體優(yōu)化)。

然而,AMD 的軟體生態(tài)系成熟度仍是其最大的短板。其 ROCm (Radeon Open Compute) 平臺(tái)雖然提供了將 CUDA 程式碼轉(zhuǎn)換的工具,但整體成熟度、社群規(guī)模和框架支援度都遠(yuǎn)不及 CUDA。

部署 MI300X 通常需要投入更多的工程資源進(jìn)行優(yōu)化。盡管 AMD 正在大力改善其開發(fā)者關(guān)系,并在 ROCm 的新版本中實(shí)現(xiàn)了顯著的性能提升,但追趕上 NVIDIA 仍需要時(shí)間。

Google TPU:能效革命的引領(lǐng)者

Google 的 TPU 采用了與 GPU 截然不同的架構(gòu)設(shè)計(jì),專為 AI 運(yùn)算而生。

Google 第七代Ironwood TPU 亮相,算力進(jìn)階、Pod 最高配置9,216 顆晶片| TechNews 科技新報(bào)

架構(gòu)差異:TPU 使用脈動(dòng)陣列 (systolic arrays),專為矩陣乘法設(shè)計(jì)的固定功能硬體,犧牲了通用性但換來(lái)了極高的能源效率和更低的成本。

  • TPU v5e:效能優(yōu)化版本,功耗遠(yuǎn)低于 GPU(約為 H100 的 1/3 至 1/5),云端租用價(jià)格僅為每小時(shí) 1.20-1.38 美元,是目前主流加速器中性價(jià)比最高的選擇。其每美元的訓(xùn)練/推理效能比 GPU 高出 2-5 倍。

  • TPU v7 (Ironwood/Trillium):Google 最新的 TPU,配備 192GB HBM,記憶體頻寬高達(dá) 7.2 TB/s。能效比上一代提升了 2 倍,是第一代 TPU 的近 30 倍,堪稱業(yè)界的能效標(biāo)竿。

這也是 Anthropic 選擇它的關(guān)鍵原因:在相同的 1 GW 功耗下,采用 3nm 制程的 TPU v7 可提供的運(yùn)算能力(以 FLOP/s 計(jì)),大約是采用 4nm 制程的 NVIDIA GB200 的兩倍。

TPU 的主要劣勢(shì)在于其生態(tài)系的封閉性。僅能在 Google Cloud Platform 上使用,深度綁定造成了廠商鎖定 (vendor lock-in) 的疑慮。在軟體方面,TPU 對(duì) TensorFlow 和 JAX 框架的支援最佳,但對(duì)目前更主流的 PyTorch 框架的支援度仍不如 GPU 成熟。

關(guān)于 Google 的 AI 版圖分析可以參考 Distill 之前的文章,Google 逆襲:股價(jià)暴漲三倍,從 ChatGPT 挑戰(zhàn)到 AI 全面反擊

實(shí)戰(zhàn)選擇

  • NVIDIA H100/H200/B200:適合追求最高性能、需要成熟生態(tài)系、廣泛框架相容性以及快速上市的企業(yè)。是需要最大靈活性的研究機(jī)構(gòu)首選,但必須接受高昂的定價(jià)。

  • AMD MI300X:適合預(yù)算有限但需要大規(guī)模部署的用戶,愿意投入工程資源進(jìn)行軟體優(yōu)化。其超大的記憶體容量對(duì)大型模型尤其有吸引力。

  • Google TPU v5e/v5p/v7:最適合以 TensorFlow/JAX 為主要框架、重視成本效益與能源效率、并愿意使用 Google Cloud 的企業(yè)。對(duì)于高通量推理等工作負(fù)載,TPU 是極具成本效益的選擇。

03

無(wú)法滿足的電力需求:每年近 9 TWh 的能源消耗

一座 1 GW 的 AI 計(jì)算中心對(duì)電力的需求規(guī)模極為驚人。 1 GW 等于 10 億瓦特,若全年 24 小時(shí)不間斷運(yùn)行,一年將消耗 87.6 億度電,即 8.76 TWh (太瓦時(shí))。

相當(dāng)于瓜地馬拉或立陶宛等整個(gè)國(guó)家的年度電力消耗,或者可以供應(yīng) 130 萬(wàn)戶美國(guó)家庭一整年的用電。

圖片

然而,這還不是全部的電力需求,因?yàn)槲覀儽仨毧紤] PUE (Power Usage Effectiveness, 電力使用效率) 這個(gè)關(guān)鍵指標(biāo)。 PUE 反映了數(shù)據(jù)中心總用電量與 IT 設(shè)備用電量的比值。

傳統(tǒng)數(shù)據(jù)中心的 PUE 平均為 1.5,這意味著每供應(yīng) 1 瓦特電力給伺服器,就需要額外 0.5 瓦特電力用于冷卻、照明等基礎(chǔ)設(shè)施。

現(xiàn)代 AI 數(shù)據(jù)中心透過(guò)液冷等先進(jìn)技術(shù),可將 PUE 降至 1.1-1.25。若以 1.25 的 PUE 計(jì)算,一座 1 GW 的設(shè)施實(shí)際需要從電網(wǎng)抽取 1.25 GW 的電力,年消耗量將攀升至 10.95 TWh。

電力成本因地理位置而有天壤之別,這對(duì)營(yíng)運(yùn)成本產(chǎn)生了深遠(yuǎn)影響。在美國(guó),2024-2025 年的工業(yè)電價(jià)差異巨大:

  • 低成本地區(qū):如華盛頓州(以水力發(fā)電為主),電價(jià)約為 $0.04/kWh。

  • 平均成本地區(qū):全美平均約為 $0.0733/kWh。

  • 高成本地區(qū):如加州和東北部,電價(jià)高達(dá) $0.12-0.15/kWh。

以一座 1 GW 設(shè)施、PUE 1.25 為例,一年的電費(fèi)差異可以非常巨大:在低成本地區(qū),年電費(fèi)約為 5.15 億美元;在平均成本地區(qū),為 8.03 億美元;而在高成本地區(qū),則飆升至 16.4 億美元。

這意味著,僅僅是將數(shù)據(jù)中心建在華盛頓州而非加州,每年就能節(jié)省超過(guò) 10 億美元的電力成本。這也解釋了為何 Microsoft (MSFT)、Amazon (AMZN)、Google (GOOGL)、Meta (META) 等科技巨頭紛紛選擇在華盛頓州、愛荷華州(風(fēng)電豐富)和德州(低電價(jià))等地大舉投資建設(shè)數(shù)據(jù)中心。

圖片

支持 1 GW 電力需求的基礎(chǔ)設(shè)施本身就是一項(xiàng)龐大的工程,其資本支出在 30-50 億美元之間,占數(shù)據(jù)中心總資本支出的 20-25%。這主要包括:

  1. 變電站與輸電系統(tǒng):通常需要新建 4-6 座變電站,每座成本高達(dá) 5,000 萬(wàn)至 3 億美元。還需要專用的高壓輸電線路連接至電網(wǎng),而電網(wǎng)連接的審批在某些地區(qū)可能長(zhǎng)達(dá) 7 年之久。

  2. 配電系統(tǒng):包括 PDU (電力分配單元)、UPS (不斷電系統(tǒng))、備用發(fā)電機(jī)等,占初始資本支出的 72.9%。現(xiàn)代 AI 數(shù)據(jù)中心每 kW 容量的配電系統(tǒng)成本約 1 萬(wàn)美元,因此 1 GW 設(shè)施僅配電系統(tǒng)就需要驚人的 100 億美元投資。

04

從空氣到液體:AI 數(shù)據(jù)中心的冷卻革命

AI 工作負(fù)載帶來(lái)的高功率密度,徹底改變了數(shù)據(jù)中心的冷卻需求。傳統(tǒng)數(shù)據(jù)中心的機(jī)柜功率密度約為 5-10 kW,使用標(biāo)準(zhǔn)的 HVAC 空調(diào)即可應(yīng)對(duì)。然而,AI 數(shù)據(jù)中心的機(jī)柜功率密度已躍升至 60-130 kW,部分預(yù)測(cè)未來(lái)甚至?xí)_(dá)到 250 kW。

圖片

傳統(tǒng)的空氣冷卻技術(shù)在 40-60 kW 時(shí)便已達(dá)到其物理極限,超過(guò)這個(gè)范圍就必須采用液冷技術(shù)。冷卻系統(tǒng)在 AI 數(shù)據(jù)中心的資本支出中占比 15-20%,對(duì)一座 1 GW 設(shè)施而言,這意味著 20-30 億美元的投資。

在營(yíng)運(yùn)層面,冷卻系統(tǒng)的耗電量驚人,在傳統(tǒng)空冷設(shè)施中約占總電力需求的 40%。這也凸顯了降低 PUE 的重要性——將 PUE 從 1.5 降至 1.25,意味著可以節(jié)省 17% 的總電力消耗。

Direct-to-Chip Cooling - How it Works and its Effectiveness | Park Place  Technologies

目前主流的 AI 冷卻方案是直接晶片液冷 (Direct-to-Chip Liquid Cooling)。該系統(tǒng)將冷卻液直接輸送到 CPU/GPU 晶片上的冷板,吸收熱量后再循環(huán)至散熱器。雖然其安裝成本較高(每 kW 約 1,000-2,000 美元),但營(yíng)運(yùn)效益非常顯著:

  • 能耗大幅降低:一座擁有 1 萬(wàn)臺(tái)伺服器的液冷數(shù)據(jù)中心,每臺(tái)伺服器的年均能耗成本僅為 45.99 美元,而空冷版本則高達(dá) 254.70 美元,降幅達(dá) 87%。

  • 碳排放減少:液冷設(shè)施的年碳排放量遠(yuǎn)低于空冷設(shè)施。

  • PUE 顯著改善:液冷可將 PUE 降至 1.02-1.2 的極佳水平。

  • 成本節(jié)約:Meta (META) 報(bào)告指出,采用液冷技術(shù)后,其冷卻系統(tǒng)的能源成本降低了 40%。

另一種新興技術(shù)是浸沒(méi)式冷卻 (Immersion Cooling),它將整個(gè)伺服器浸入不導(dǎo)電的冷卻液中,散熱效率更高。根據(jù) 2025 年的產(chǎn)業(yè)調(diào)查,73% 的新建 AI 設(shè)施都部署了直接晶片液冷或浸沒(méi)式冷卻。

Immersion cooling to offset data centers

這背后的主要驅(qū)動(dòng)因素包括持續(xù)提升的功率密度、不斷上漲的電價(jià)壓力、以及日益嚴(yán)格的環(huán)保法規(guī)。

對(duì)于一座 1 GW 的設(shè)施,若透過(guò)采用液冷將 PUE 從 1.5 降至 1.25,每年可節(jié)省 250 MW 的電力消耗,相當(dāng)于每年 21.9 億度電。以全美平均電價(jià)計(jì)算,這等同于每年節(jié)省 1.6 億美元的電費(fèi)。

盡管液冷系統(tǒng)的前期投資較高(約 10-20 億美元),但這筆投資通常可在 6-12 年內(nèi)收回,對(duì)于設(shè)計(jì)使用年限長(zhǎng)達(dá) 10-15 年的設(shè)施而言,這是一筆極具經(jīng)濟(jì)效益的投資。

05

機(jī)柜、網(wǎng)路與供應(yīng)鏈

一座 1 GW 的 AI 計(jì)算中心究竟需要多大的物理空間?答案取決于機(jī)柜的功率密度?,F(xiàn)代 AI 數(shù)據(jù)中心的機(jī)柜功率密度通常在 60-120 kW 之間。以 100 kW/機(jī)柜的典型配置計(jì)算,1 GW (1,000,000 kW) 的設(shè)施需要 1 萬(wàn)個(gè)機(jī)柜。

圖片

每個(gè)機(jī)柜占用的物理空間(含通道和公用設(shè)施)約為 72-90 平方英尺,因此僅數(shù)據(jù)大廳就需要 72-90 萬(wàn)平方英尺的面積。再加上電力室、冷卻設(shè)備、辦公區(qū)等附屬空間,一座 1 GW 設(shè)施的整體建筑面積通常高達(dá) 100-200 萬(wàn)平方英尺。

以 150 萬(wàn)平方英尺的設(shè)施計(jì)算,其建筑總成本約在 9.4-17 億美元之間。土地成本則因地點(diǎn)而異,大型 AI 數(shù)據(jù)中心園區(qū)通常占地 200-700 英畝,靠近電力和網(wǎng)路樞紐的戰(zhàn)略位置可能耗資數(shù)億美元。

網(wǎng)路系統(tǒng)是連接數(shù)十萬(wàn)顆 GPU 的關(guān)鍵,其重要性不言而喻。 1 GW 設(shè)施的網(wǎng)路基礎(chǔ)建設(shè)成本約為 10-20 億美元,占總資本支出的 5-10%。但隨著叢集規(guī)模擴(kuò)大至 50-100 萬(wàn)顆處理器,這一比例預(yù)計(jì)將增至 15-20%。在技術(shù)選擇上,主要有兩大陣營(yíng):

圖片
  • InfiniBand:由 NVIDIA (NVDA) 主導(dǎo),長(zhǎng)期以來(lái)一直是 AI 訓(xùn)練叢集的首選,提供最低延遲和最高頻寬。但其交換器價(jià)格是同等級(jí) Ethernet 的 2-3 倍,占整個(gè)叢集成本的約 20%。

  • Ethernet with RoCE (RDMA over Converged Ethernet):正快速崛起為一種成本效益更高的替代方案。隨著 400GbE 和 800GbE 標(biāo)準(zhǔn)的成熟,Ethernet 的性能差距正在迅速縮小,可節(jié)省大量的資本和營(yíng)運(yùn)支出。

在機(jī)柜內(nèi)部,NVIDIA GPU 使用其專有的 NVLink 技術(shù)進(jìn)行高速互連。最新的 NVLink 5.0 頻寬高達(dá) 1.8 TB/s。在 GB200 NVL72 機(jī)柜中,72 顆晶片透過(guò)全對(duì)全拓?fù)溥B接,使得更大規(guī)模的模型可以無(wú)需跨機(jī)柜通訊,極大地提升了訓(xùn)練效率。

圖片

然而,AI 熱潮也給供應(yīng)鏈帶來(lái)了巨大壓力。傳統(tǒng)數(shù)據(jù)中心的建設(shè)周期為 18-24 個(gè)月,但現(xiàn)在由于關(guān)鍵設(shè)備的交貨期大幅延長(zhǎng),建設(shè)周期也隨之拉長(zhǎng)。

例如,變壓器和開關(guān)設(shè)備的交貨期長(zhǎng)達(dá) 46-48 周,發(fā)電機(jī)長(zhǎng)達(dá) 30-110 周。這些瓶頸已成為制約 AI 基礎(chǔ)設(shè)施快速擴(kuò)建的主要障礙。

為應(yīng)對(duì)此挑戰(zhàn),業(yè)界正在轉(zhuǎn)向模組化/預(yù)制化建設(shè),這種方法將大部分組裝工作在工廠完成,現(xiàn)場(chǎng)僅需連接,可將建設(shè)時(shí)間縮短至 12 個(gè)月以下,甚至有公司采用更激進(jìn)的移動(dòng)式燃?xì)鉁u輪機(jī)和預(yù)制化組件,在 6 個(gè)月內(nèi)就建成了 200 MW 的容量,創(chuàng)下了業(yè)界紀(jì)錄。

06

爆炸性成長(zhǎng)背后的經(jīng)濟(jì)可持續(xù)性

全球數(shù)據(jù)中心產(chǎn)業(yè)正經(jīng)歷一場(chǎng)史無(wú)前例的擴(kuò)張。 2023 年,全球數(shù)據(jù)中心 IT 電力容量為 49 GW,預(yù)計(jì)到 2030 年將達(dá)到 122 GW。 McKinsey 的情境分析更為震撼,其預(yù)測(cè)在加速情境下,到 2030 年全球?qū)⑿枰?205 GW 的 AI 運(yùn)算容量,這意味著高達(dá) 7.9 兆美元的投資。

圖片

這股建設(shè)狂潮由四大云端巨頭引領(lǐng),包括 Amazon (AMZN)、Microsoft (MSFT)、Google/Alphabet (GOOGL) 和 Meta (META)。

這四家公司在 2024 年的資本支出合計(jì)高達(dá) 2,300 億美元,2025 年預(yù)計(jì)將進(jìn)一步攀升至 3,150 億美元以上。到 2026 年,這四家巨頭將占據(jù)全球數(shù)據(jù)中心資本支出的 50%。

與此同時(shí),一系列雄心勃勃的超級(jí)計(jì)畫正在浮現(xiàn):

  • OpenAI-SoftBank-Oracle 的 Stargate 計(jì)畫:總投資高達(dá) 5,000 億美元,目標(biāo)是部署 10 GW 的運(yùn)算容量。

  • BlackRock-Microsoft 全球 AI 基礎(chǔ)建設(shè)伙伴計(jì)畫 (GAIIP):宣布投資 800-1,000 億美元建設(shè)數(shù)據(jù)中心。

  • OpenAI-NVIDIA 合作計(jì)畫:計(jì)劃建設(shè) 10 GW 的數(shù)據(jù)中心容量,相當(dāng)于紐約市夏季的尖峰用電量。

然而,最根本的問(wèn)題是:當(dāng)前的建設(shè)狂潮是否具備經(jīng)濟(jì)可持續(xù)性?以一座 1 GW 設(shè)施為例,其年化成本(營(yíng)運(yùn)支出加上資產(chǎn)折舊)約為 49.5 億美元。若要達(dá)到 10% 的內(nèi)部回報(bào)率 (IRR),年?duì)I收需達(dá)到 64.5 億美元。然而,2024-2025 年整個(gè) AI 產(chǎn)業(yè)的總營(yíng)收估計(jì)僅約 100 億美元。

這與合理化當(dāng)前建設(shè)速度所需的 2,000-3,000 億美元年?duì)I收之間,存在著 20-30 倍的巨大差距。這意味著,要么 AI 應(yīng)用的營(yíng)收必須在未來(lái)數(shù)年內(nèi)實(shí)現(xiàn)爆炸性成長(zhǎng),要么當(dāng)前的一部分建設(shè)計(jì)畫將無(wú)法達(dá)到預(yù)期的投資回報(bào)。

不過(guò)前景并非一片黯淡。超大規(guī)模業(yè)者建設(shè)數(shù)據(jù)中心不僅是為了自家的 AI 產(chǎn)品,更是為了其龐大的云端服務(wù)業(yè)務(wù)。云端 GPU 租賃市場(chǎng)正在快速成長(zhǎng),H100 的租賃費(fèi)用雖從 2023 年的高峰回落,但在 2025 年仍維持在每小時(shí) 2-5 美元的穩(wěn)定水平。

隨著生成式 AI 應(yīng)用滲透率的提升、企業(yè) AI 轉(zhuǎn)型的加速,以及 AI 推理需求的暴增,這個(gè)營(yíng)收缺口有望逐步縮小。

總結(jié)而言,一座 1 GW 的 AI 計(jì)算中心代表了人類歷史上規(guī)模最大、技術(shù)最先進(jìn)、成本也最高昂的資訊基礎(chǔ)建設(shè)。它需要 100-200 億美元的資本、每年近 10 億千瓦時(shí)的電力、以及數(shù)十萬(wàn)顆先進(jìn)晶片。

Distill AI


 

                          關(guān)注 Distill AI

                                           AI時(shí)代的慢思考

  Distill AI致力于報(bào)道并幫助AI創(chuàng)業(yè)公司獲得曝光及用戶增長(zhǎng),創(chuàng)始人均是多年資深VC背景,希望發(fā)掘早期有亮點(diǎn)的項(xiàng)目,助力其實(shí)現(xiàn)快速盈利和資本化

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多