电竞比分网-中国电竞赛事及体育赛事平台

分享

人工智能算力中心全液冷建設(shè)及發(fā)展深度分析!2024 !

 mrjiangkai 2024-07-25
第一章 液冷行業(yè)背景及技術(shù) 優(yōu)化方向
1. 液冷行業(yè)背景及政策
1.1 智能算力中心行業(yè)發(fā)展及問題
國家十四五規(guī)劃提出大力發(fā)展數(shù)字經(jīng)濟(jì),計(jì)算力代表著生產(chǎn)力,而計(jì)算力的承載體就是智能算力中心。根據(jù)IDC發(fā)布算力報(bào)告指出:算力提升與經(jīng)濟(jì)發(fā)展成正相關(guān)關(guān)系,計(jì)算力指數(shù)每提高一個(gè)點(diǎn),數(shù)字經(jīng)濟(jì)會(huì)增長3.5%,GDP會(huì)增長1.8%。
智能算力中心礎(chǔ)設(shè)施作為算力的載體已成為支撐數(shù)字經(jīng)濟(jì)的“數(shù)字底座”,而其本身也是碳排放“大戶”,2022年,中國智能算力中心碳排放量相當(dāng)于5000萬輛燃油汽車的年排放總量。在雙碳目標(biāo)下,作為“耗電大戶”智能算力中心的節(jié)能減排備受關(guān)注。
當(dāng)前,芯片功耗與服務(wù)器功耗逐步上升。與之對(duì)應(yīng),單機(jī)柜功率密度也不斷增大。根據(jù)相關(guān)機(jī)構(gòu)調(diào)研,2020年算力中心平均機(jī)架功率為8.5kW/機(jī)柜,相比于2011、2017年有明顯提高,年復(fù)合增長率達(dá)到15%。高功耗芯片,高密度服務(wù)器及單機(jī)柜密度的演進(jìn),對(duì)于傳統(tǒng)風(fēng)冷散熱來說,既容易出現(xiàn)局部熱點(diǎn),影響換熱性能;又需要不斷降低送風(fēng)溫度,增大送風(fēng)風(fēng)量,影響制冷能耗。因此,傳統(tǒng)風(fēng)冷制冷模式在換熱性能及能耗優(yōu)化方面逐步受限。
液冷是一種新興的冷卻技術(shù),該種技術(shù)通過采用液態(tài)冷卻工質(zhì)流動(dòng)方式帶走發(fā)熱元件熱量替代風(fēng)冷換熱中采用空氣換熱的模式。與風(fēng)冷對(duì)比,液冷技術(shù)可以更好地支持高功耗芯片解熱,保持芯片低溫運(yùn)行,延長壽命;充分利用室外自然冷源冷卻,降低智能算力中心PUE;提高關(guān)鍵部件換熱效率,減少服務(wù)器散熱熱點(diǎn),支持機(jī)柜更高密度;降低智能算力中心噪聲,提升智能算力中心環(huán)境適應(yīng)性。因此,未來智能算力中心建設(shè)中,液冷技術(shù)的應(yīng)用將會(huì)是在智能算力中心制冷方向的重要組成部分,也是實(shí)現(xiàn)綠色算力和雙碳目標(biāo)達(dá)成的重要舉措。
圖片
1.2 智能算力中心行業(yè)政策介紹
“碳中和”成為全人類共識(shí),已有130多個(gè)國家宣示了碳中和承諾。近年來隨著智能算力中心規(guī)??焖僭鲩L,其耗電量約占全球總用電量的2%,且還在急劇增加。《Uptime全球智能算力中心報(bào)告2022》指出,2014年以來,全球大型智能算力中心PUE連續(xù)8年維持在1.6左右,智能算力中心能效水平仍存在較大優(yōu)化空間。為推動(dòng)智能算力中心綠色發(fā)展,多個(gè)國家、國際組織發(fā)布相關(guān)政策。
多地已開始限制高PUE的智能算力中心的建設(shè),相關(guān)政策和智能算力中心機(jī)房對(duì)PUE提出明確限制,鼓勵(lì)液冷技術(shù)、IT設(shè)備高密度集成技術(shù)及IT設(shè)備能效提升技術(shù)實(shí)施,促進(jìn)智能算力中心液冷技術(shù)進(jìn)一步發(fā)展。
1.3 液冷智能算力中心標(biāo)準(zhǔn)化建設(shè)
標(biāo)準(zhǔn)化是衡量技術(shù)成熟度的重要憑證,對(duì)于液冷智能算力中心的標(biāo)準(zhǔn)化建設(shè),一直以來都是行業(yè)領(lǐng)域、學(xué)術(shù)界與工業(yè)界關(guān)注的重點(diǎn)。
國內(nèi)標(biāo)準(zhǔn)方面,已發(fā)布1 項(xiàng)與電子設(shè)備相關(guān)的冷板液冷國家標(biāo)準(zhǔn),GB/T 15428-1995《電子設(shè)備用冷板設(shè)計(jì)導(dǎo)則》。該標(biāo)準(zhǔn)主要規(guī)定電子設(shè)備使用的冷板換熱計(jì)算和結(jié)構(gòu)設(shè)計(jì),對(duì)于冷板核心參數(shù)定義,性能定義,材料定義,加工工藝,漏液檢測定義和測試方法及要求均不涉及;同時(shí)據(jù)統(tǒng)計(jì),近五年來國內(nèi)有十余家標(biāo)準(zhǔn)組織或技術(shù)組織正在開展液冷技術(shù)相關(guān)的標(biāo)準(zhǔn)化工作,已發(fā)布行業(yè)標(biāo)準(zhǔn)9項(xiàng),團(tuán)體標(biāo)準(zhǔn)28項(xiàng),涉及液冷部件,節(jié)點(diǎn),系統(tǒng)和智能算力中心四個(gè)層面的技術(shù)要求和測試方法,適用于液冷系統(tǒng)的設(shè)計(jì)、施工、部署、運(yùn)維、測試等環(huán)節(jié)的技術(shù)指導(dǎo)(清單詳見下表);此外國內(nèi)也已發(fā)布20余項(xiàng)白皮書或研究報(bào)告成果。
表1. 現(xiàn)有液冷智能算力中心標(biāo)準(zhǔn)
圖片
圖片
在國外標(biāo)準(zhǔn)方面,ASHRAE TC9.9 定義了供給冷量分配單元的一次側(cè)冷卻水的溫度等級(jí),從W17 到 W+ 共 6 個(gè)溫度等級(jí),詳細(xì)內(nèi)容如下表所示。
圖片
2. 液冷智能算力中心主流技術(shù)介紹及對(duì)比
2.1 智能算力中心行業(yè)發(fā)展及問題
冷板液冷和浸沒式液冷是目前智能算力中心行業(yè)應(yīng)用的兩種主流液冷技術(shù)。冷板式液冷是指采用液體作為傳熱工質(zhì)在高導(dǎo)熱金屬冷板內(nèi)部流道流動(dòng),通過熱傳遞對(duì)熱源實(shí)現(xiàn)冷卻的非接觸式液體冷卻技術(shù)。浸沒式液冷是將發(fā)熱電子元器件直接浸沒在非導(dǎo)電冷卻工質(zhì)中,通過冷卻工質(zhì)循環(huán)流動(dòng)來進(jìn)行散熱的接觸式冷卻技術(shù)。根據(jù)液冷工質(zhì)在換熱過程中是否會(huì)發(fā)生液氣相轉(zhuǎn)變,冷板和浸沒式液冷又分成單相式和兩相式。單相冷板和單相沒式液冷由于技術(shù)相對(duì)簡單,在教科研、互聯(lián)網(wǎng)和通信等多行業(yè)里已經(jīng)有一些典型部署案例。相比單相浸沒式液冷,單相冷板式液冷主要有以下優(yōu)勢:除此之外,相比于單相浸沒式液冷,單相冷板式液冷(以下均簡稱為冷板式液冷)的缺點(diǎn)主要集中在以下幾個(gè)方面:
  • 技術(shù)相對(duì)成熟,生態(tài)完善,對(duì)機(jī)柜和服務(wù)器改造小,初投資少,成本優(yōu)勢明顯。
  • 不改變客戶的使用習(xí)慣,運(yùn)維模式、機(jī)房承重與風(fēng)冷場景也基本一致。
  • 冷卻工質(zhì)不直接接觸芯片和服務(wù)器內(nèi)其他部件,對(duì)材料兼容性要求低,可以相對(duì)容易地與不同廠商和型號(hào)的計(jì)算設(shè)備兼容,提供更多的硬件選擇空間;對(duì)服務(wù)器高速鏈路信號(hào)完整性也無影響。
  • 占用空間相對(duì)較少,適合于對(duì)空間有限制的智能算力中心和計(jì)算環(huán)境。
  • 對(duì)冷卻工質(zhì)的需求量少,冷板液冷冷卻工質(zhì)相比浸沒式液冷用氟化液也更加環(huán)保。
  • 單芯片散熱能力在1kW以上,相比單相浸沒式液冷有更高的單點(diǎn)散熱能力。
  •  智能算力中心系統(tǒng)PUE更高:由于冷板式液冷服務(wù)器中冷板結(jié)構(gòu)多數(shù)僅覆蓋CPU、GPU等高功耗發(fā)熱部件,其余部件常以風(fēng)冷輔助冷卻,服務(wù)器仍需配置冷板及風(fēng)扇兩套冷卻部件,智能算力中心需要配置CDU和空調(diào)兩套冷卻系統(tǒng)。隨著空調(diào)及壓縮機(jī)制冷,通常冷板液冷智能算力中心PUE高于浸沒式液冷系統(tǒng)。
  •  系統(tǒng)存在漏液短路風(fēng)險(xiǎn):冷板式液冷系統(tǒng)通常冷卻工質(zhì)選擇去離子水或乙二醇/丙二醇水溶液,如果冷卻工質(zhì)與冷板材質(zhì)選擇和后期維護(hù)不當(dāng),長期運(yùn)行后可能出現(xiàn)腐蝕,導(dǎo)致冷卻工質(zhì)泄露,最終對(duì)服務(wù)器造成宕機(jī)或者燒板的風(fēng)險(xiǎn)。
  • 基于上述冷板式液冷的優(yōu)劣勢情況,鑒于冷板式液冷在整體系統(tǒng)架構(gòu)改造,產(chǎn)業(yè)鏈成熟度,初投資等方面均有優(yōu)勢。如果冷板液冷能夠逐步增加液冷覆蓋面積,同時(shí)避免因冷卻工質(zhì)泄露導(dǎo)致的系統(tǒng)短路風(fēng)險(xiǎn),冷板式液冷優(yōu)勢會(huì)更加明顯。
3. 先進(jìn)冷板液冷智能算力中心介紹
為了更清晰地了解先進(jìn)冷板式液冷智能算力中心形態(tài)功能及應(yīng)用情況,選取行業(yè)智能算力中心典型代表進(jìn)行分析,詳細(xì)數(shù)據(jù)如下:
3.1 先進(jìn)冷板液冷智能算力中心介紹
· Frontier
Frontier系統(tǒng)安裝在美國田納西州ORNL橡樹嶺國家實(shí)驗(yàn)室,系統(tǒng)總共配有74個(gè)獨(dú)立機(jī)柜,包括9408個(gè)CPU和37632個(gè)GPU,搭載 CPU 和 GPU的9408個(gè)刀片服務(wù)器通過全冷板液冷的方式進(jìn)行冷卻散熱。
· Aurora
Aurora系統(tǒng)安裝在美國能源部下屬阿貢國家實(shí)驗(yàn)室,根據(jù)規(guī)劃,Aurora在建設(shè)完成后將配備21248個(gè)CPU, 63744個(gè)GPU,搭載 CPU 和 GPU的10624個(gè)刀片服務(wù)器通過全冷板液冷的方式進(jìn)行冷卻散熱。
3.2 智能算力中心特點(diǎn)及問題分析
Frontier和Aurora 智能算力中心均采用了冷板全液冷高密服務(wù)器架構(gòu),冷板全液冷顧名思義就是用冷板液冷技術(shù)實(shí)現(xiàn)服務(wù)器內(nèi)接近100%的熱捕獲。冷板全液冷服務(wù)器在全球很多高算力,高供電密度的智能算力中心中已有很多商業(yè)部署案例,其帶來的好處是
  • 高效節(jié)能與靜音:服務(wù)器內(nèi)去風(fēng)扇,智能算力中心去空調(diào)化運(yùn)行,智能算力中心PUE低至1.1以下,運(yùn)行噪音低于60dB。這對(duì)于大規(guī)模高密度計(jì)算集群來說是一個(gè)重要的優(yōu)勢,有助于進(jìn)一步提高能源使用效率,把更多的電力用于提升算力。
  • 高集成:采用全液冷技術(shù),利用一套高溫水系統(tǒng)可以實(shí)現(xiàn)系統(tǒng)換熱,機(jī)房內(nèi)部無需空調(diào)冷凝器設(shè)備,機(jī)房外部無需額外配置空調(diào)蒸發(fā)器,冷水機(jī)組及各項(xiàng)管路,全液冷服務(wù)器布置可以通過去除空調(diào)系統(tǒng)及相應(yīng)基礎(chǔ)設(shè)施節(jié)省30%以上的空間。
  • 高密度:全液冷產(chǎn)品可以忽略風(fēng)扇及空調(diào)的影響,使服務(wù)器的布置和機(jī)柜內(nèi)排布更緊密,單機(jī)柜可支持100KW以上,無需安裝冷熱通道封閉設(shè)施,節(jié)省了大量的空間,從而能夠在單位空間布置更多的服務(wù)器,提高智能算力中心運(yùn)算效率。除去以上全液冷冷板系統(tǒng)應(yīng)用可以帶來的諸多好處之外,全液冷冷板服務(wù)器系統(tǒng)大規(guī)模推廣應(yīng)用還存在很多挑戰(zhàn),需要后續(xù)逐步優(yōu)化去解決:
  • 隨著服務(wù)器內(nèi)液冷覆蓋率的增高,服務(wù)器冷板液冷環(huán)路設(shè)計(jì)復(fù)雜度提升,對(duì)適合的服務(wù)器系統(tǒng)架構(gòu)有一定要求,需要設(shè)計(jì)者在早期就針對(duì)全液冷方案規(guī)劃合理的服務(wù)器架構(gòu)設(shè)計(jì),減少全液冷環(huán)路設(shè)計(jì)的復(fù)雜性。
  • 隨著液冷環(huán)路包含的部件增多,服務(wù)器內(nèi)冷板方案的重量和體積也會(huì)有大幅提升,對(duì)液冷環(huán)路的安裝和維護(hù)帶來更多挑戰(zhàn)。
  • 服務(wù)器內(nèi)冷板方案的成本也會(huì)隨著液冷覆蓋率的提高而有所提升,需要通過部件液冷方案設(shè)計(jì)優(yōu)化及標(biāo)準(zhǔn)化以促進(jìn)規(guī)模應(yīng)用,降低成本。
4. 冷板液冷服務(wù)器設(shè)計(jì)技術(shù)優(yōu)化方向
結(jié)合冷板式液冷特點(diǎn)及行業(yè)先進(jìn)液冷智能算力中心分析,冷板液冷未來技術(shù)優(yōu)化方向主要圍繞通過技術(shù)創(chuàng)新進(jìn)一步提高能效,降低初投資成本,減少漏液安全隱患及提高運(yùn)維便利性展開。
  • 完善部件液冷方案, 提高液冷覆蓋率。除CPU, GPU,內(nèi)存之外,目前業(yè)界對(duì)服務(wù)器內(nèi)其他發(fā)熱部件如何通過冷板液冷實(shí)現(xiàn)經(jīng)濟(jì)有效散熱的探索還比較少,方案尚未成熟,價(jià)格昂貴,有待通過設(shè)計(jì)方案的創(chuàng)新實(shí)現(xiàn)標(biāo)準(zhǔn)化,規(guī)模化應(yīng)用的經(jīng)濟(jì)性和可靠性,進(jìn)一步提高冷板液冷智能算力中心能效,減少智能算力中心空調(diào)用量和成本,降低冷卻系統(tǒng)復(fù)雜度。
  • 提高通用化及可維護(hù)性。目前已知的全冷板液冷方案大多基于高度定制化服務(wù)器設(shè)計(jì),液冷方案無法靈活適用于傳統(tǒng)通用服務(wù)器架構(gòu)。對(duì)硬盤和網(wǎng)卡等通常需要熱插拔的部件無法支持不斷電維護(hù)。內(nèi)存液冷方案對(duì)冷板管路加工精度要求非常高,在內(nèi)存安裝,維護(hù)及可靠性方面也存在一定的弊端。
  • 拓展冷板液冷材料范圍,減輕重量,降低成本。服務(wù)器重量隨著液冷部件的增多大幅上升,對(duì)服務(wù)器運(yùn)維和運(yùn)輸過程中的可靠性帶來諸多挑戰(zhàn)。拓展低密度低成本冷板液冷材料范圍,有助于推動(dòng)行業(yè)多樣化發(fā)展。
  • 提升液冷系統(tǒng)長期使用的安全性,降低漏液風(fēng)險(xiǎn)。選取合理的冷板環(huán)路材料和液冷冷卻工質(zhì),并進(jìn)行充分的相容性測試及系統(tǒng)性能老化性測試,是保障液冷系統(tǒng)全生命周期內(nèi)安全穩(wěn)定運(yùn)行,降低漏液風(fēng)險(xiǎn)的關(guān)鍵。
第二章 全液冷服務(wù)器系統(tǒng)架構(gòu)設(shè)計(jì)
1. 全液冷冷板服務(wù)器創(chuàng)新實(shí)踐
為了進(jìn)一步推動(dòng)液冷技術(shù)發(fā)展和生態(tài)成熟,浪潮信息聯(lián)合英特爾深耕通用高密服務(wù)器液冷優(yōu)化設(shè)計(jì),除了業(yè)界目前廣泛嘗試的CPU和GPU液冷,對(duì)高功耗內(nèi)存,固態(tài)硬盤,OCP網(wǎng)卡,PSU電源,PCIe和光模塊液冷也進(jìn)行了深入的探索和研究,打造行業(yè)最高液冷覆蓋率,滿足用戶多種液冷覆蓋占比部署要求,為互聯(lián)網(wǎng)、通訊等行業(yè)客戶提供通用基礎(chǔ)能力及多樣化技術(shù)支持。
此次全液冷冷板系統(tǒng)開發(fā)是基于浪潮信息2U四節(jié)點(diǎn)高密計(jì)算服務(wù)器i24,每個(gè)液冷節(jié)點(diǎn)支持兩顆英特爾第五代至強(qiáng)平臺(tái)可擴(kuò)展處理器,搭配16根DDR5內(nèi)存,1張PCIe擴(kuò)展卡和1張OCP3.0網(wǎng)卡。整機(jī)可支持8張SSD固態(tài)硬盤,在實(shí)現(xiàn)高密算力的同時(shí)滿足客戶存儲(chǔ)需求。服務(wù)器主要的發(fā)熱部件包括CPU、內(nèi)存, I/O 板卡, 本地硬盤,機(jī)箱電源等。
液冷方案實(shí)現(xiàn)了系統(tǒng)中95%左右的熱量通過冷板接觸熱源由液體直接帶走,剩余5%左右的熱量經(jīng)由PSU電源后置的風(fēng)液式換熱器里面的冷卻水帶走,系統(tǒng)級(jí)即可實(shí)現(xiàn)接近100%液冷熱捕獲率。
整體設(shè)計(jì)理念是基于在滿足性能和可靠性要求的基礎(chǔ)上,從系統(tǒng)級(jí)解決方案開始,探索高能效,低成本和易于運(yùn)維的全液冷服務(wù)器全新設(shè)計(jì)之道:
  • 節(jié)點(diǎn)與硬盤區(qū)域?qū)崿F(xiàn)內(nèi)部水電信號(hào)盲插結(jié)構(gòu)共用,去除了多余管路,單節(jié)點(diǎn)運(yùn)行即可支持多張固態(tài)硬盤液冷。
  • 節(jié)點(diǎn)冷板設(shè)計(jì)采用串聯(lián)主流路,冷板焊接接口明顯減少,降低漏液風(fēng)險(xiǎn)。
  • 全新的內(nèi)存液冷設(shè)計(jì)方案,顛覆了業(yè)界現(xiàn)有方案在散熱性能,公差控制,維護(hù)便利性及信號(hào)接觸可靠性方面的弊端,為解決高功耗內(nèi)存散熱難題打開了新思路。
  • 全新的OCP網(wǎng)卡和硬盤液冷方案簡單可靠,均可支持30次以上熱插拔,方便客戶在開機(jī)狀態(tài)下進(jìn)行維修,擴(kuò)容或系統(tǒng)更新操作。
  • 此全液冷冷板方案最大化地利用現(xiàn)有風(fēng)冷模組及業(yè)界成熟的冷板和風(fēng)冷散熱器加工工藝,避免定制化液冷部件和復(fù)雜加工工藝,優(yōu)化成本。
  • 對(duì)低密度低成本鋁冷板的散熱可行性及與冷卻工質(zhì)的長期相容性做了大量拓展研究,為鋁冷板在智能算力中心行業(yè)應(yīng)用可行性分析積累了寶貴實(shí)踐數(shù)據(jù)。
2. 系統(tǒng)組成及管路布局
2.1 全液冷服務(wù)器整機(jī)介紹
2U四節(jié)點(diǎn)全液冷服務(wù)器系統(tǒng)由節(jié)點(diǎn)、機(jī)箱、中背板、固態(tài)硬盤模組組成。節(jié)點(diǎn)和機(jī)箱組件間通過快接頭、電源及信號(hào)連接器實(shí)現(xiàn)水、電、信號(hào)盲插。
圖片圖1. 2U四節(jié)點(diǎn)全液冷服務(wù)器
2.2 全液冷服務(wù)器單節(jié)點(diǎn)介紹
全液冷服務(wù)器的節(jié)點(diǎn)由節(jié)點(diǎn)外殼、主板、CPU芯片、內(nèi)存模組、內(nèi)存冷板、CPU冷板,IO冷板,電源及電源后置換熱器等組成。
圖片圖2. 全液冷服務(wù)器節(jié)點(diǎn)
3. 通流方式選擇及流量計(jì)算
3.1 全液冷冷板通流方式選擇
為了簡化流路設(shè)計(jì)的復(fù)雜性,此全液冷服務(wù)器的散熱冷卻工質(zhì)流路選用串聯(lián)流路設(shè)計(jì),冷卻工質(zhì)整體由低功耗器件往高功耗器件流動(dòng)和散熱,詳細(xì)流動(dòng)方向見下圖及表所示。
圖片圖3. 2U四節(jié)點(diǎn)全液冷服務(wù)器串聯(lián)流路
圖片表3. 冷卻工質(zhì)流動(dòng)順序
3.2 全液冷冷板流量設(shè)計(jì)
全液冷服務(wù)器流量需要滿足系統(tǒng)散熱需求:1)為了確保二次側(cè)管路材料的長期可靠性,二次側(cè)回水溫度不超過65?C;2)確保全液冷服務(wù)器各零部件在定義的邊界條件下滿足散熱需求,選取銅冷板+PG25作為流量設(shè)計(jì)分析。
為了滿足二次側(cè)回水溫不超過65?C要求,通過下列公式計(jì)算出單節(jié)點(diǎn)PG25最小流量Qmin:Qmin=Psys/(ρ*C*?T) ≈1.3 (LPM)
其中:
Psys指單節(jié)點(diǎn)功耗,通過計(jì)算硬件配置以及電路損耗,單節(jié)點(diǎn)功耗約為1100W。ρ指PG25在目標(biāo)溫度下的密度。
C指PG25在目標(biāo)溫度下的比熱容。
?T=14?C指二次側(cè)進(jìn)水溫度51?C到最高回水溫度65?C的溫差。
為進(jìn)一步驗(yàn)證該流量下,各個(gè)冷板覆蓋部件是否超溫,通過CFD軟件進(jìn)行散熱仿真。結(jié)果顯示全液冷服務(wù)器銅冷板在進(jìn)水溫度51?C(W45)以及冷卻工質(zhì)PG25 1.3LPM流量條件下所有零部件溫度都滿足溫度要求,且具有一定的安全溫度裕量,詳細(xì)數(shù)據(jù)如下表所示:
圖片表4. CFD散熱仿真條件

圖片表5. CFD散熱仿真結(jié)果
綜上分析所述,全液冷服務(wù)器采用單節(jié)點(diǎn)流量1.3LPM完全滿足系統(tǒng)散熱設(shè)計(jì)目標(biāo),而且經(jīng)濟(jì)合理利用CDU提供的冷卻工質(zhì)。
第三章 全液冷服務(wù)器冷板 關(guān)鍵部件設(shè)計(jì)
1. CPU冷板設(shè)計(jì)
CPU冷板模組是基于英特爾第五代至強(qiáng)平臺(tái)可擴(kuò)展處理器冷板的設(shè)計(jì)要求,綜合考慮散熱,結(jié)構(gòu)性能,成品率,價(jià)格及不同材質(zhì)冷板設(shè)計(jì)兼容性等因素優(yōu)化而成的一款CPU冷板參考設(shè)計(jì),主要由CPU冷板鋁支架,CPU冷板及冷板接頭等部件組成。
圖片圖4. CPU冷板模組
2.內(nèi)存液冷設(shè)計(jì)
內(nèi)存液冷設(shè)計(jì)采用的是創(chuàng)新型的枕木散熱器液冷方案,因內(nèi)存插滿如鐵軌上的枕木而得名。它將傳統(tǒng)風(fēng)冷散熱和冷板散熱相結(jié)合,通過內(nèi)置熱管的散熱器(或純鋁/銅板、VaporChamber等)把內(nèi)存上的熱量傳遞至兩端,與冷板通過選定的導(dǎo)熱墊片接觸,最終通過冷板內(nèi)的冷卻工質(zhì)把熱量帶走實(shí)現(xiàn)內(nèi)存散熱。
內(nèi)存跟散熱器可在系統(tǒng)外通過治具進(jìn)行組裝形成最小維護(hù)單元(下文稱之為內(nèi)存模組)。內(nèi)存冷板上設(shè)計(jì)有內(nèi)存模組固定結(jié)構(gòu)可確保散熱器和內(nèi)存冷板之間良好接觸,內(nèi)存模組固定結(jié)構(gòu)根據(jù)需要可以用螺絲固定或者無工具維護(hù)。內(nèi)存冷板頂部給內(nèi)存散熱,底部則可以根據(jù)需要給主板其他發(fā)熱元器件散熱,比如VR,最大化利用內(nèi)存冷板。為簡化內(nèi)存冷板設(shè)計(jì),內(nèi)存和主板之間可以設(shè)計(jì)轉(zhuǎn)接支架來滿足不同主板的限高區(qū)。
圖片圖5. 枕木散熱器液冷方案
與市場上現(xiàn)有的管路(Tubing)內(nèi)存液冷方案相比,枕木散熱器液冷方案的主要優(yōu)勢有:
  • 易于維護(hù)。內(nèi)存維護(hù)時(shí)只需像維護(hù)風(fēng)冷內(nèi)存一樣維護(hù)內(nèi)存模組,無需將散熱器和扣具取下,極大地提高了液冷內(nèi)存組裝效率和可靠性,降低了內(nèi)存在系統(tǒng)內(nèi)拆裝時(shí)可能對(duì)內(nèi)存顆粒和導(dǎo)熱墊片造成的損傷。
  • 通用性好不同內(nèi)存的顆粒厚度和內(nèi)存間距不影響該方案的散熱性能,該方案最小適應(yīng)7.5毫米的內(nèi)存間距,往上兼容。散熱器和冷板解耦設(shè)計(jì),可重復(fù)利用和內(nèi)存液冷標(biāo)準(zhǔn)化。
  • 更高的性價(jià)比。內(nèi)存散熱器可根據(jù)內(nèi)存功耗選取不同的工藝和散熱技術(shù),且數(shù)量可根據(jù)內(nèi)存按需配置。在7.5毫米內(nèi)存間距情況下,即可滿足30W以上內(nèi)存的散熱需求。
  • 易于制造和組裝內(nèi)存插槽之間沒有液冷管路,無需復(fù)雜的管路焊接和工藝控制,可以采用傳統(tǒng)風(fēng)冷散熱器和通用的CPU冷板制造工藝。組裝散熱器時(shí),散熱性能對(duì)散熱器和主板在垂直于內(nèi)存顆粒平面方向的公差不敏感,不會(huì)出現(xiàn)熱接觸不良,更容易組裝。
  • 可靠性好。枕木液冷方案避免了組裝過程中可能對(duì)內(nèi)存顆粒和導(dǎo)熱墊片造成的損傷,并可滿足多次插拔需求。此外,它還避免了內(nèi)存和管路液冷散熱方案安裝后內(nèi)存與插槽間由于傾斜而造成信號(hào)接觸不良的風(fēng)險(xiǎn),極大地提升系統(tǒng)可靠性。
3. 硬盤液冷設(shè)計(jì)
創(chuàng)新的固態(tài)硬盤液冷方案是通過內(nèi)置熱管的散熱器把硬盤區(qū)域的熱量導(dǎo)出與硬盤區(qū)域外的冷板通過導(dǎo)熱墊片垂直接觸實(shí)現(xiàn)換熱。
此固態(tài)硬盤液冷方案主要由裝有散熱器的固態(tài)硬盤模組,固態(tài)硬盤冷板,硬盤模組鎖緊機(jī)構(gòu),及硬盤支架組成。硬盤模組鎖緊機(jī)構(gòu)固定在硬盤支架上提供合適的預(yù)緊力來保證固態(tài)硬盤模組和固態(tài)硬盤冷板的長期接觸可靠性。為了方便硬盤冷板環(huán)路在狹小空間內(nèi)的安裝,硬盤支架在服務(wù)器深度方向采用了抽屜式的安裝方式設(shè)計(jì)。
圖片圖6. 創(chuàng)新的固態(tài)硬盤液冷方案
相比業(yè)界已有的硬盤液冷嘗試,此方案的先進(jìn)性主要體現(xiàn)在:
  • 可支持30次以上系統(tǒng)不斷電熱插拔
  • 硬盤安裝過程中對(duì)導(dǎo)熱界面材料無剪切破環(huán)風(fēng)險(xiǎn),鎖緊機(jī)構(gòu)的設(shè)計(jì)可以保證長期的接觸可靠性
  • 液冷散熱方案對(duì)加工工藝要求低,只需采用傳統(tǒng)的風(fēng)冷和CPU冷板加工工藝
  • 硬盤間無水設(shè)計(jì),多硬盤可供用同一冷板,減少了接頭數(shù)量,降低漏液風(fēng)險(xiǎn)
  • 可靈活適配不同厚度和數(shù)量的固態(tài)硬盤系統(tǒng)
4. PCIe/OCP卡液冷設(shè)計(jì)
4.1 PCIe液冷方案
PCIe卡液冷方案是基于現(xiàn)有風(fēng)冷PCIe卡,通過開發(fā)一款可以與系統(tǒng)冷板接觸的PCIe卡散熱模塊來實(shí)現(xiàn)對(duì)光模塊及PCIe卡上主要芯片的散熱。光模塊的熱量通過熱管傳導(dǎo)到與PCIe卡主芯片上的散熱模塊主體,散熱模塊主體與IO冷板通過合適的導(dǎo)熱界面材料接觸實(shí)現(xiàn)換熱。
液冷PCIe卡主要由QSFP散熱板夾子、PCIe芯片散熱模塊及PCIe卡組成。QSFP散熱板夾子要設(shè)計(jì)合適的彈性量,確保與PCIe散熱模塊上的QSFP散熱板和籠子配合實(shí)現(xiàn)光模塊安裝時(shí)的合適浮動(dòng)量,以保證良好的用戶體驗(yàn),避免損壞光模塊,并實(shí)現(xiàn)良好的接觸穩(wěn)定性而達(dá)到預(yù)期的散熱效果。
圖片圖7. PCIe卡液冷模組
4.2 OCP3.0液冷方案
OCP3.0卡液冷方案跟PCIe卡類似,通過給OCP3.0卡定制一款液冷散熱器,把卡上發(fā)熱芯片熱量傳導(dǎo)到液冷散熱器,最終通過散熱器與系統(tǒng)IO冷板的接觸把熱量帶走實(shí)現(xiàn)散熱。
OCP3.0液冷模組主要由散熱器模塊,OCP3.0卡及其支架組成。鎖緊機(jī)構(gòu)由于空間限制采用了彈簧螺釘,以保證液冷OCP3.0卡組裝后散熱器模塊與IO冷板之間的長期接觸可靠性。
圖片圖8. OCP3.0液冷模組
考慮到后期維護(hù)的便利性及OCP3.0卡的多次熱插拔需求,鎖緊機(jī)構(gòu)的設(shè)計(jì)和導(dǎo)熱界面材料的選型也做了很多優(yōu)化來提高整體方案的可靠性及運(yùn)維的便利性。
4.3 IO冷板方案
IO冷板是具有多功能的冷板,不僅僅實(shí)現(xiàn)主板IO區(qū)域內(nèi)的發(fā)熱部件的散熱,也實(shí)現(xiàn)了液冷PCIe卡和液冷OCP3. 0卡的散熱。 
圖片圖9. IO冷板
圖片圖10. 液冷PCIe卡,液冷OCP3.0及IO冷板位置
IO冷板主要由IO冷板主體和銅管流道組成。IO冷板主體采用鋁合金材質(zhì),銅管主要承擔(dān)冷卻工質(zhì)流道和加強(qiáng)散熱的作用,具體設(shè)計(jì)需要根據(jù)主板布局及部件的散熱要求進(jìn)行優(yōu)化。液冷PCIe卡及液冷OCP3.0卡上的散熱模塊與IO冷板沿箭頭方向接觸。
冷卻工質(zhì)流道材料的選型需要考慮與系統(tǒng)管路冷卻工質(zhì)及浸潤材料的兼容性。此IO冷板液冷方案實(shí)現(xiàn)了多個(gè)部件在多維度的組裝需求,銅鋁材質(zhì)的混合使用,解決了材料兼容性問題,保證散熱效果,同時(shí)幫助減輕60%冷板重量并降低了成本。
5. 電源冷板設(shè)計(jì)
電源液冷解決方案是在現(xiàn)有風(fēng)冷電源的基礎(chǔ)上通過外接一個(gè)風(fēng)液換熱器來冷卻PSU風(fēng)扇吹出的熱風(fēng),以減少系統(tǒng)對(duì)外界智能算力中心環(huán)境的預(yù)熱。
PSU后置換熱器為多層結(jié)構(gòu),流道與鰭片相互疊加。PSU后置換熱器的尺寸須在不影響電源線的插拔功能和滿足系統(tǒng)機(jī)柜空間限制的條件下,平衡散熱需求,重量及成本做出最優(yōu)選擇。PSU后置換熱器獨(dú)立組裝在節(jié)點(diǎn)支架上。
圖片圖11. PSU后置換熱器
此創(chuàng)新的電源液冷解決方案,無須重新開發(fā)新的液冷專用電源,縮短開發(fā)周期,降低開發(fā)成本;良好的通用性可以靈活適配多家廠商的電源方案,比定制化液冷電源節(jié)約成本60%以上。
針對(duì)于整機(jī)柜的應(yīng)用場景,電源液冷還可以采用集中式風(fēng)液換熱器的解決方案,即對(duì)整機(jī)柜前后門進(jìn)行封閉,在機(jī)柜底部布置一個(gè)集中式風(fēng)液換熱器,借助集中式結(jié)構(gòu)替代PSU后置的分布式風(fēng)液換熱器結(jié)構(gòu)。
集中式風(fēng)液換熱器是由噴涂親水涂層強(qiáng)化換熱的鋁制波紋翅片,配合高換熱系數(shù)銅管組成的換熱器,可在能夠在10℃溫差下提供不低于8kW冷卻能力;換熱器流路仿真優(yōu)化,在低阻下承載更多流量;具備防凝露設(shè)計(jì)和全方位漏液檢測,杜絕安全隱患。采用特殊的鉸鏈設(shè)計(jì),滿足高承重要求;同時(shí)卡盤式連接設(shè)計(jì),方便安裝,易于維護(hù)。
按照單臺(tái)全液冷服務(wù)器超過95%熱量均由冷板解熱,僅有不足5%熱量需要風(fēng)液換熱器解熱計(jì)算,單個(gè)節(jié)點(diǎn)僅有40-50W風(fēng)液解熱量,單臺(tái)集中式風(fēng)液換熱器支持8kW換熱量,可支持不低于150節(jié)點(diǎn)的電源風(fēng)液散熱,且成本遠(yuǎn)低于150個(gè)分布式風(fēng)液散熱器價(jià)格。
利用該種方案,服務(wù)器電源可以不做任何改造,產(chǎn)生的熱量在機(jī)柜后部由集中式風(fēng)液換熱器統(tǒng)一收集與熱交換,同時(shí)該部分熱量在機(jī)柜內(nèi)形成自有循環(huán),不會(huì)對(duì)機(jī)房環(huán)境造成任何影響,真正做到“Rack as a computer”。
圖片圖12. 全液冷整機(jī)柜(含全液冷服務(wù)器+集中式風(fēng)液換熱器)
第四章 全液冷服務(wù)器 冷板測試驗(yàn)證
1. 測試項(xiàng)目介紹
全液冷服務(wù)器冷板性能測試分別針對(duì)單機(jī)系統(tǒng)和整機(jī)柜系統(tǒng)進(jìn)行測試,詳細(xì)測試項(xiàng)目及介紹如下:
1.1 散熱性能測試
測試單臺(tái)全液冷冷板服務(wù)器和全液冷整機(jī)柜系統(tǒng)在W32、W40與W45一次側(cè)供液溫度,服務(wù)器滿載情況各個(gè)部件運(yùn)行參數(shù)。
1.2 HCR測試
測試單臺(tái)全液冷冷板服務(wù)器液體散熱量比例。
1.3 流阻測試
測試全液冷服務(wù)器冷板在不同流量及入水溫度的流阻曲線。
2. 測試結(jié)果分析
2.1 單機(jī)系統(tǒng)測試
(1)系統(tǒng)散熱性能測試結(jié)果
全液冷服務(wù)器系統(tǒng)散熱性能測試按照最高散熱設(shè)計(jì)目標(biāo)二次側(cè)供水溫度51?C (W45),冷板系統(tǒng)在相應(yīng)冷卻工質(zhì)單節(jié)點(diǎn)流量1.3LPM進(jìn)行,測試結(jié)果如下表:
表6. 系統(tǒng)熱性能測試條件圖片
表7. 系統(tǒng)熱性能測試結(jié)果圖片
全液冷服務(wù)器系統(tǒng)散熱性能測試結(jié)果表明滿配系統(tǒng)在最差工況條件下:供水溫度51?C和額定流量1.3LPM,所有的散熱部件都滿足部件的溫度要求,并且還有十分安全的裕量。下圖為 CPU冷板測試散熱性能曲線:
圖片圖13. CPU銅冷板熱阻與流阻曲線
(2)液冷熱捕獲效率(HCR)測試結(jié)果
液冷熱捕獲效率(HCR)通常用來衡量液冷系統(tǒng)液冷散熱效率,在全液冷服務(wù)器單系統(tǒng)熱性能測試中收集相關(guān)數(shù)據(jù),用下列公式計(jì)算HCR值:
HCR=P_liquid/P_system * 100%
其中:
P_liquid指通過液體散發(fā)的熱量
P_system指液冷系統(tǒng)總功耗
全液冷服務(wù)器液冷熱捕獲效率(HCR)測試結(jié)果如下圖:
圖片圖14. 液冷HCR曲線
(3)全液冷服務(wù)器系統(tǒng)流阻測試結(jié)果
冷卻工質(zhì)PG25和純水在不同流量不同溫度下全液冷服務(wù)器系統(tǒng)流阻測試結(jié)果如下圖所示:
圖片圖15. 系統(tǒng)流阻曲線
全液冷服務(wù)器系統(tǒng)流阻測試結(jié)果顯示工質(zhì)PG25在相同溫度和流量下比純水流阻高20%左右,同一工質(zhì)溫度越高流阻越低,PG25的流阻相比純水對(duì)溫度更為敏感。在51?C進(jìn)水溫度1.3LPM流量條件下,采用冷卻工質(zhì)PG25和純水的系統(tǒng)流阻分別是118kPa和99.6kPa。
2.2 整機(jī)柜系統(tǒng)測試
(1)系統(tǒng)散熱性能測試
整機(jī)柜系統(tǒng)散熱性能測試采用前后封閉液冷機(jī)柜,配置3臺(tái)液冷服務(wù)器,分別位于機(jī)柜上、中、下3個(gè)位置,每臺(tái)液冷服務(wù)器含有4個(gè)節(jié)點(diǎn),合計(jì)12個(gè)服務(wù)器節(jié)點(diǎn)。服務(wù)器節(jié)點(diǎn)去除分布式風(fēng)液換熱器,機(jī)柜底部配置集中式風(fēng)液換熱器,除服務(wù)器及風(fēng)液換熱器外,其余機(jī)架采用盲板結(jié)構(gòu)封存,系統(tǒng)內(nèi)外均無列間空調(diào)使用和運(yùn)行。由于單節(jié)點(diǎn)已完成整機(jī)熱性能測試,整機(jī)柜測試測試工況選擇CDU二次側(cè)供水溫度工況38?C (W32),集中式風(fēng)液換熱器連接一次側(cè)供水工況32?C (W32),測試結(jié)果表明在上述工況下,系統(tǒng)可正常運(yùn)行。具體測試數(shù)據(jù)如下表:
表8. 全液冷整機(jī)柜換熱測試數(shù)據(jù)
圖片
(2)液冷熱捕獲效率(HCR)測試結(jié)果
針對(duì)于液冷熱捕獲效率(HCR),相關(guān)計(jì)算數(shù)據(jù)如下:
冷板液冷解熱量:10.6kW,集中式風(fēng)液換熱器解熱量:0.6kW,因此整體液冷解熱量11.2kW,參考整機(jī)測試功耗11.4kW計(jì)算可得,HCR為98.2%。與單服務(wù)器在35℃環(huán)境中進(jìn)行測試相比,在全液冷機(jī)柜環(huán)境中,由于機(jī)柜前后門封閉,熱量無法從服務(wù)器中逃逸至外部環(huán)境中,更容易被風(fēng)液換熱器進(jìn)行捕獲,因此系統(tǒng)HCR值更高。這也從另一個(gè)角度證明,在該種工作情況下,以全液冷整機(jī)柜(全液冷服務(wù)器+集中式風(fēng)液換熱器)為載體,可以最直觀和容易實(shí)現(xiàn)系統(tǒng)無風(fēng)扇全液冷。
綜合上述分析可得,全液冷服務(wù)器和全液冷整機(jī)柜系統(tǒng)可在滿足服務(wù)器關(guān)鍵部件的散熱的基礎(chǔ)上,有效提升系統(tǒng)液冷占比,在規(guī)定的冷卻工質(zhì)流量及溫度的條件下,實(shí)現(xiàn)100%的液冷散熱,整體設(shè)計(jì)與測試均能互相驗(yàn)證并滿足要求。
第五章 鋁冷板全液冷方案 設(shè)計(jì)與測試驗(yàn)證
1. 鋁冷板全液冷方案設(shè)計(jì)
為了進(jìn)一步優(yōu)化全液冷服務(wù)器的重量和成本,在原有銅冷板的基礎(chǔ)上,此次基于鋁材質(zhì)冷板也做了全液冷系統(tǒng)方案的探索。以下是鋁冷板全液冷服務(wù)器及冷板節(jié)點(diǎn)示意圖。
圖片圖16. 2U四節(jié)點(diǎn)鋁冷板液冷服務(wù)器 
圖片圖17. 鋁冷板節(jié)點(diǎn)圖
鋁冷板全液冷方案中除了IO冷板的流道設(shè)計(jì)和加工方式跟銅冷板有所區(qū)別,其他部件冷板的設(shè)計(jì)基本保持跟銅冷板方案一致。與銅制IO冷板銅管嵌入鋁冷板結(jié)構(gòu)設(shè)計(jì)不同,鋁制IO冷板直接針對(duì)鋁冷板進(jìn)行槽道設(shè)計(jì),并由上蓋和下底板2塊冷板進(jìn)行覆蓋和焊接,實(shí)現(xiàn)一體化鋁冷板結(jié)構(gòu),詳細(xì)如下圖所示:
圖片圖18. 鋁IO冷板圖
經(jīng)過測量,冷板材質(zhì)從銅到鋁的替代幫助整個(gè)全液冷系統(tǒng)冷板重量節(jié)省44%,降低了對(duì)機(jī)箱強(qiáng)度和包材設(shè)計(jì)要求,提高運(yùn)維便利。鋁冷板加工工藝靈活,更易于實(shí)現(xiàn)規(guī)模化,大規(guī)模量產(chǎn)后鋁冷板方案比銅冷板成本預(yù)計(jì)可以節(jié)省20%以上。
2. 鋁冷板性能與兼容性測試
鋁冷板目前在智能算力中心行業(yè)的使用還比較少,一方面由于鋁材質(zhì)的換熱能力低于銅材質(zhì),相同換熱設(shè)計(jì)下,鋁冷板的熱阻更高;另一方面,鋁材質(zhì)活性更高,更容易與冷卻工質(zhì)發(fā)生反應(yīng),嚴(yán)重的可能造成冷卻工質(zhì)雜質(zhì)增加,冷板腐蝕、泄露,甚至最終影響系統(tǒng)使用。因此選擇鋁材質(zhì)冷板,在保障冷板換熱與流動(dòng)性能滿足要求的同時(shí),需要對(duì)冷板的可靠性及冷卻工質(zhì)兼容性進(jìn)行測試與匹配。此次鋁冷板的探索,在方案方案設(shè)計(jì)、換熱與流動(dòng)性能等測試的基礎(chǔ)上,增加了冷卻工質(zhì)兼容性測試,可為后續(xù)探索與應(yīng)用提供數(shù)據(jù)參考與支撐。
2.1 冷板換熱與流動(dòng)性能測試
鋁冷板性能測試主要圍繞散熱能力和流動(dòng)兩方面來驗(yàn)證,冷板主體材質(zhì)從銅改成鋁后是否仍可滿足各個(gè)部件的散熱需求。
2.2 冷板與冷卻工質(zhì)兼容性測試
將鋁冷板測試樣品接入專用兼容性測試平臺(tái),測試平臺(tái)內(nèi)配有冷板液冷系統(tǒng)及純化裝置,通過TTV持續(xù)加熱及CDU循環(huán)實(shí)現(xiàn)冷卻工質(zhì)持續(xù)穩(wěn)定高溫運(yùn)行,冷卻工質(zhì)冷板入口流速1.5m/s,冷卻工質(zhì)出口溫度65℃。每天記錄檢查每個(gè)支路的流量、溫度數(shù)據(jù)、溶液電導(dǎo)率值及PH值變化,定期使用專門的試驗(yàn)瓶收取并儲(chǔ)存溶液。整體測試結(jié)束后,將剩余冷板和測試樣片拆卸,稱重并進(jìn)行分析剖解。
通過對(duì)比測試樣品前后結(jié)構(gòu)參數(shù)(關(guān)鍵尺寸、質(zhì)量、流道表面形貌),性能參數(shù)(散熱性能)及測試平臺(tái)冷卻工質(zhì)電導(dǎo)率及離子含量等數(shù)據(jù),判斷冷板在長周期運(yùn)行后,是否存在兼容性問題。
圖片圖19. 冷板冷卻工質(zhì)兼容性測試平臺(tái)
3. 鋁冷板測試結(jié)果及分析
詳細(xì)測試數(shù)據(jù)如下:
3.1 換熱與流動(dòng)性能測試結(jié)果
全液冷服務(wù)器鋁冷板系統(tǒng)散熱測試結(jié)果如下表。
表9. 鋁冷板系統(tǒng)散熱測試條件
圖片
表10. 鋁冷板系統(tǒng)散熱測試結(jié)果
圖片
經(jīng)測試,鋁冷板(與冷卻工質(zhì)純水)和銅冷板(與冷卻工質(zhì)PG25)在相同流量下散熱性能相近,經(jīng)過基于 350W CPU 對(duì)比測試,CPU 鋁冷板相比銅冷板在相同工況下溫度高 ~2?C(熱阻值高~20%),但CPU鋁冷板依然能滿足全液冷散熱器CPU的散熱需求,并且還有一定的安全溫度裕量。由于鋁冷板和銅冷板采用相同結(jié)構(gòu)設(shè)計(jì),二者在相同流量工況下流阻基本一致。CPU鋁冷板測試熱阻和流阻曲線如下圖。 
圖片圖20. CPU鋁冷板熱阻曲線
3.2 兼容性測試結(jié)果
經(jīng)過超3個(gè)月高溫運(yùn)行后,分別對(duì)冷板冷卻工質(zhì)、熱阻、重量進(jìn)行檢測,并對(duì)冷板的進(jìn)行切割處理,測試?yán)浒鍍?nèi)部結(jié)構(gòu)變化,詳細(xì)數(shù)據(jù)如下:
表11. 長期測試?yán)鋮s工質(zhì)電導(dǎo)率變化
圖片
圖片
圖片
經(jīng)過檢測,冷卻工質(zhì)的電導(dǎo)率、冷板質(zhì)量、熱性能均沒有顯著變化。冷卻工質(zhì)數(shù)據(jù)及冷板形態(tài)參數(shù)均滿足要求,鋁冷板拆解后,內(nèi)部結(jié)構(gòu)也無腐蝕性形態(tài)。部分測試過程及結(jié)構(gòu)圖片如下圖所示:
圖片
另外關(guān)于鋁冷板結(jié)構(gòu)強(qiáng)度的研究,參考通用冷板的相關(guān)標(biāo)準(zhǔn)規(guī)范,圍繞冷板剛度、耐壓能力及抗沖擊振動(dòng)等幾方面進(jìn)行了系統(tǒng)性測試,測試結(jié)果鋁冷板均符合相關(guān)要求。
第六章 冷板液冷未來思考展望
1. 全液冷冷板技術(shù)應(yīng)用拓展
1.1 內(nèi)存液冷應(yīng)用
現(xiàn)階段在服務(wù)器項(xiàng)目中,通常情況下單顆CPU兩側(cè)內(nèi)存適配可達(dá)16條(單側(cè)8條)??紤]內(nèi)存顆粒厚度和PCB板插槽位置等不同公差,同時(shí)對(duì)8-16條內(nèi)存進(jìn)行冷板適配對(duì)于加工工藝要求較高。
同時(shí)現(xiàn)階段服務(wù)器主板尺寸逐步縮減,內(nèi)存間距逐步下降,內(nèi)存功耗也不斷增加,未來內(nèi)存功耗最高將接近50W,如何保障內(nèi)存液冷換熱也將是一個(gè)研究方向。
采用通用冷板方案常因?yàn)槔浒寮庸す钆c主板內(nèi)存插槽及內(nèi)存自身公差匹配問題,導(dǎo)致內(nèi)存在插入冷板插槽和內(nèi)存插槽的過程中存在干涉,影響內(nèi)存插拔連接及接觸換熱。如采用柔性熱管方案,盡管可以在一定程度使冷板可以移動(dòng),抵消對(duì)內(nèi)存結(jié)構(gòu)公差的影響,但由于內(nèi)存的頻繁插拔及不斷提升的散熱需求,這將對(duì)熱管的耐久度和換熱能力提出更高的要求。
因此未來枕木式內(nèi)存液冷冷板方案將可以在有效增強(qiáng)內(nèi)存液冷換熱能力的同時(shí),解決內(nèi)存液冷插拔干涉的問題,但如何優(yōu)化枕木散熱器及內(nèi)存冷板的結(jié)構(gòu)及尺寸,使之適配各種服務(wù)器結(jié)構(gòu),同時(shí)使枕木散熱器結(jié)構(gòu)標(biāo)準(zhǔn)化,加工模具化,成本低價(jià)化,將是未來該項(xiàng)技術(shù)和方案能否真正批量使用的關(guān)鍵。
1.2 硬盤液冷應(yīng)用
硬盤自身的特點(diǎn)是尺寸大,功耗低,溫度要求高,但同時(shí)要求能夠具備熱插拔的特點(diǎn)。通常情況下,單臺(tái)服務(wù)器硬盤數(shù)量8-24左右,數(shù)量多且排列緊密。如果按照CPU液冷的方式進(jìn)行設(shè)計(jì),布置傳統(tǒng)鏟齒冷板結(jié)構(gòu),一方面缺少足夠的空間布置,每個(gè)冷板需要由蓋板,基板和鏟齒流道組成,厚度至少6-8mm,且需要每個(gè)硬盤增加2對(duì)快接頭實(shí)現(xiàn)水路連接,這將極大增加冷板成本,大幅增加漏點(diǎn)及維護(hù)難度,這對(duì)于整個(gè)服務(wù)器的液冷是不利的。
充分考慮硬盤在尺寸,功耗和溫度的要求及其熱插拔性,采用僅增加冷板(含熱管)實(shí)現(xiàn)無水接觸換熱的方案或?qū)⑹俏磥碛脖P液冷的一個(gè)重要發(fā)展方向。通過金屬板及熱管與整個(gè)硬盤表面進(jìn)行接觸,將硬盤的熱量進(jìn)行匯集后傳遞到端面,再由端面接觸的液冷冷板將熱量帶走,實(shí)現(xiàn)換熱。金屬冷板(含熱管)可支持不低于30W/顆硬盤換熱,厚度不高于3mm,可以與硬盤及硬盤殼更好地進(jìn)行組裝拼接。
在上述優(yōu)勢的基礎(chǔ)上,采用該種換熱方案的硬盤液冷仍需更好地解決接觸點(diǎn)固定、接觸面材料選擇及提升冷板導(dǎo)熱能力等相關(guān)技術(shù)問題,另外將整個(gè)硬盤冷板標(biāo)準(zhǔn)化和模具化,也是未來要解決的重要問題。
2. 冷板液冷新技術(shù)展望
2.1 負(fù)壓冷板液冷技術(shù) 展望
對(duì)于傳統(tǒng)冷板液冷系統(tǒng),系統(tǒng)內(nèi)部冷卻工質(zhì)的工作壓力高于大氣壓,當(dāng)管路老化或破損后,內(nèi)部冷卻工質(zhì)會(huì)流出到服務(wù)器內(nèi)部,可能對(duì)服務(wù)器乃至智能算力中心造成災(zāi)難性的損害,這也是常規(guī)冷板式液冷技術(shù)推廣應(yīng)用中客戶的核心顧慮點(diǎn)。
負(fù)壓冷板液冷技術(shù)突破正壓的弊端,變被動(dòng)應(yīng)對(duì)為主動(dòng)防御,可確保液冷循環(huán)管路內(nèi)的冷卻工質(zhì)工作壓力穩(wěn)定低于外界大氣壓的狀態(tài)。當(dāng)管路出現(xiàn)破損,甚至切斷的情況,冷卻工質(zhì)因?yàn)榈蛪盒Ч?,被大氣壓推?dòng)并回流到CDU腔室內(nèi),全程不出現(xiàn)任何漏液現(xiàn)象,從根源上解決漏液痛點(diǎn)問題。
未來如需在智能算力中心領(lǐng)域應(yīng)用負(fù)壓液冷技術(shù),最重要的是解決液冷系統(tǒng)阻力控制和優(yōu)化的問題。負(fù)壓CDU壓差相對(duì)正壓CDU來說較小,可提供壓差在小于0.7bar,因此應(yīng)通過在保障冷板液冷部件換熱能力的同時(shí),減少冷卻工質(zhì)流量及優(yōu)化結(jié)構(gòu)進(jìn)而減少系統(tǒng)阻力,實(shí)現(xiàn)更高效的運(yùn)輸;同時(shí),由于系統(tǒng)低壓,冷卻工質(zhì)飽和溫度將低于100℃(通常在70℃左右),因此系統(tǒng)回水溫度需要有效控制,避免產(chǎn)生汽化。針對(duì)于負(fù)壓泄露后的告警及維護(hù)等方面的技術(shù)的優(yōu)化,也是負(fù)壓液冷能夠?qū)崿F(xiàn)應(yīng)用的重要方向。
2.2 相變冷板液冷技術(shù)展望
相變冷板液冷是一種較為新興的液冷技術(shù),該技術(shù)基于泵驅(qū)兩相冷卻工質(zhì)回路技術(shù),由于其利用冷卻工質(zhì)在加熱后汽化,液-氣蒸發(fā)相變潛熱散熱,具備換熱效率高,換熱階段溫度恒定等優(yōu)勢;又因汽化潛熱遠(yuǎn)高于顯熱,因此相同換熱量條件下,所需冷卻工質(zhì)流量小,換熱過程泵功節(jié)能性更高;同時(shí)又因?yàn)樵擃愊嘧兝鋮s工質(zhì)通常為含氟類物質(zhì),具備較高的絕緣性,因此如出現(xiàn)冷卻工質(zhì)泄露至服務(wù)器中也不會(huì)對(duì)服務(wù)器造成影響,系統(tǒng)安全性更高。綜上來說,相變冷板液冷具備高效換熱,高效均溫,高效節(jié)能及高效安全的優(yōu)勢。
未來如需在智能算力中心領(lǐng)域應(yīng)用相變液冷技術(shù),同樣存在一些問題和挑戰(zhàn)需要解決。第一個(gè)問題是對(duì)于相變工質(zhì)的選擇,需要考慮冷卻工質(zhì)適合使用的壓力與沸點(diǎn)范圍,安全性,環(huán)保性,換熱及流動(dòng)能力等因素;另一個(gè)關(guān)鍵點(diǎn)是對(duì)于冷卻工質(zhì)的系統(tǒng)壓力控制,需要對(duì)系統(tǒng)內(nèi)部各個(gè)部件的壓損進(jìn)行調(diào)整及控制,實(shí)現(xiàn)冷卻工質(zhì)在服務(wù)器不同功耗,不同冷板結(jié)構(gòu)等情況下,系統(tǒng)內(nèi)部壓力和壓損在合理范圍內(nèi),保障冷卻工質(zhì)在整個(gè)流動(dòng)周期內(nèi)均處于氣液兩相狀態(tài),既不會(huì)汽化過低影響換熱,又不會(huì)汽化過高造成管內(nèi)干涸氣溫驟升。

圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多