|
以數(shù)據(jù)中心為代表的算力基礎(chǔ)設(shè)施作為支撐數(shù)字經(jīng)濟發(fā)展的重要資源,已經(jīng)成為賦能傳統(tǒng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵力量,各類事故產(chǎn)生的影響是巨大的。 在這其中,因制冷系統(tǒng)故障而導致的事故并不在少數(shù),影響通常較大。因此,有必要對近幾年此類事故進行梳理分析和總結(jié)改進,做到防患于未然。 一、近幾年數(shù)據(jù)中心主要制冷事故 每天每個數(shù)據(jù)中心都可能發(fā)現(xiàn)和處置一些制冷系統(tǒng)的隱患甚至故障,但由于系統(tǒng)冗余度的存在以及應(yīng)急處置的及時,這些故障大部分并不會轉(zhuǎn)化為事故,不會直接影響業(yè)務(wù)系統(tǒng)。 但是,仍然會存在一些突發(fā)、重大、非常見類故障,可能由于發(fā)現(xiàn)不及時、處置不當?shù)仍驅(qū)е轮评湎到y(tǒng)失效,從而引發(fā)重大責任事故。 近幾年國內(nèi)外數(shù)據(jù)中心主要制冷事故統(tǒng)計如下 ![]() 這些事故基本都造成了數(shù)據(jù)中心服務(wù)的中斷,少則幾個小時,多則幾天,也引發(fā)媒體的廣泛報道,給行業(yè)造成了一定的負面影響。 二、數(shù)據(jù)中心制冷系統(tǒng)事故的特點 制冷系統(tǒng)相對較為復雜,運維人員不僅要關(guān)注設(shè)備運行狀態(tài),還需要關(guān)注控制系統(tǒng)、水系統(tǒng)、溫場分布、壓力、流量等運行數(shù)據(jù)。在實際運營中,任何一方面出現(xiàn)問題,都可能引發(fā)事故。 綜合來看,制冷系統(tǒng)事故具有以下幾個特點: 1.制冷系統(tǒng)事故影響可能更大 制冷系統(tǒng)事故不僅會影響業(yè)務(wù),如果處置不當,還可能引發(fā)客戶設(shè)備損壞、數(shù)據(jù)丟失甚至起火等事件,擴大影響范圍。 制冷系統(tǒng)故障發(fā)生時,并不像電力系統(tǒng)故障一樣瞬間顯現(xiàn)出來,運維人員可能因此存在一定僥幸心理,以為能通過應(yīng)急進行處理,沒有及時告知客戶響應(yīng)人員??蛻繇憫?yīng)人員也可能由于擔心客戶追責等原因,沒有及時通知客戶對服務(wù)器斷電和對業(yè)務(wù)系統(tǒng)切換。 缺少制冷,機房溫度將呈指數(shù)上升,等運維人員發(fā)現(xiàn)無法控制時為時已晚。現(xiàn)場處置不當,還會引發(fā)服務(wù)器快速升溫,可能導致服務(wù)器硬件損壞、電源線燒毀甚至起火等事件,這在高密度機柜中并不少見。 ![]() 案例:2022年12月香港電訊盈科機房,機房冷卻系統(tǒng)失效,不僅造成業(yè)務(wù)中斷,還由于機房溫度達到臨界值觸發(fā)消防系統(tǒng)噴淋,導致電源柜和多列機柜進水,部分機器硬件損壞。 2.制冷系統(tǒng)事故恢復時間更長 如果只是單個設(shè)備故障,通過主備切換就可以快速應(yīng)急處置。如果是水系統(tǒng)的流量、壓力故障或者控制系統(tǒng)故障,很可能無法立刻解決。 控制類故障,涉及到控制系統(tǒng)、邏輯關(guān)系、控制節(jié)點、手動自動等多方面協(xié)同問題。部分故障發(fā)生后,甚至需要將所有節(jié)點的自動控制切換為手動控制模式,再逐個節(jié)點啟動和并網(wǎng)。 水系統(tǒng)故障,可能更麻煩。如果是冷水泄漏,不僅需要修補故障點、管道排氣、管道補水和控制水溫,還需要綜合流量和壓力的平衡,短時間內(nèi)很難完全恢復。 案例:2022年12月香港電訊盈科機房,機房冷卻系統(tǒng)缺水進氣形成氣阻,影響水路循環(huán)導致4臺主冷機服務(wù)異常,啟動4臺備用冷機時因主備共用的水路循環(huán)系統(tǒng)氣阻導致啟動失敗。補水后,又因機房冷卻系統(tǒng)的群控邏輯,無法單臺獨立啟動冷機,需要手工修改冷機配置,將冷機從群控調(diào)整為獨立運行后才徹底解決。 整個處理過程中,原因定位耗時3小時34分鐘,補水排氣耗時2小時57分鐘,解鎖群控邏輯啟動4臺冷機耗時3小時32分鐘。 3.制冷系統(tǒng)復雜度越高隱患越多 制冷專業(yè)是數(shù)據(jù)中心最復雜的一個專業(yè),架構(gòu)也最為復雜。不僅包含冷卻、冷凍、末端、蓄冷和水等多套系統(tǒng),每套系統(tǒng)又會根據(jù)需求配置成2N、N+1、N+X、N等不同模式,還需要結(jié)合BA、動環(huán)、群控和自控等輔助控制系統(tǒng)動態(tài)調(diào)控,導致整個系統(tǒng)復雜度越來越高。 例如,制冷系統(tǒng)中冷卻技術(shù)的自然冷卻技術(shù)就有如下多種類別。 ![]() 制冷系統(tǒng)-冷卻技術(shù)-自然冷卻技術(shù)分類 很多地區(qū)為了追求節(jié)能,通常還會設(shè)置2套冷卻系統(tǒng),結(jié)合天氣情況進行切換。這種高復雜度和多系統(tǒng)并存,不僅會存在不同硬件廠家間的接口對接隱患,也會存在不同系統(tǒng)間的控制邏輯隱患。 一旦出現(xiàn)故障,需要協(xié)同判斷的因素越來越多,需要人員專業(yè)能力越來越高,判斷和處理時長必然會相應(yīng)增加。 案例:2023年3月廣州某電信數(shù)據(jù)中心,BA系統(tǒng)故障導致冷凍水閥門“關(guān)-合”誤動作引發(fā)冷水流失,造成全部主機停機,據(jù)說與BA和蓄冷罐聯(lián)動有關(guān)。事件發(fā)生后,現(xiàn)場通過關(guān)閉誤動作閥門、管路氣阻疏通、緊急多點補水、甚至敷設(shè)冰塊等操作應(yīng)急處理,盡量降低機房溫度,但依然造成重大事故。 4.制冷系統(tǒng)事故具有一定隱蔽性 數(shù)據(jù)中心水系統(tǒng)等管路的泄露,通常在監(jiān)控端顯現(xiàn)時,可能已經(jīng)發(fā)生了一段時間。特別是部分數(shù)據(jù)中心對冷凍站的管路采取了彩殼處理,這種看似高大上的方式,實際不僅影響對初期隱患的發(fā)現(xiàn),也影響對泄漏點的快速準確判斷,增加了隱蔽性和判斷難度。 ![]() 數(shù)據(jù)中心冷凍站彩殼 案例:2019年,某數(shù)據(jù)中心由于主管管材材質(zhì)不合規(guī),焊接工藝存在問題,并且沒有采用完善的防腐措施,運營中出現(xiàn)腐蝕引發(fā)冷凍水泄漏。處理過程中,彩殼影響了對故障點的查找和判斷,沒有第一時間進行處置,從而影響業(yè)務(wù)系統(tǒng)。 5.制冷系統(tǒng)事故具有一定延遲性 制冷系統(tǒng)故障具有突發(fā)性,但由于整個系統(tǒng)通常會有一定的冷量余量,不會立刻對機房溫度產(chǎn)生影響,事故的顯現(xiàn)呈現(xiàn)一定延遲性。 監(jiān)控人員如果對系統(tǒng)架構(gòu)不夠熟悉,對各系統(tǒng)運行參數(shù)不夠熟悉,很可能無法通過運行數(shù)據(jù)和性能數(shù)據(jù)在第一時間發(fā)現(xiàn)和確定故障,可能需要在性能劣化到產(chǎn)生告警時才注意到故障,因此錯過了最佳的應(yīng)急時間。 例如,冷凍水的漏水、定壓補水等故障,很可能需要機房溫升才會發(fā)現(xiàn),這種延遲性是非常致命的。 ![]() 公開的實測數(shù)據(jù)顯示,無論是5kW、7kW還是11kW機柜,雖然冷卻失效時間不同,但都會有3-10分鐘的緩沖時間,不會立即對服務(wù)器運行產(chǎn)生影響,但這種延遲性容易影響正常的處理。 6.自控系統(tǒng)節(jié)點隱患不能忽視 各廠家的自控系統(tǒng)雖然已經(jīng)相對完善,并經(jīng)過多年運行積累,但在與不同系統(tǒng)、不同設(shè)備對接時,仍然可能存在一定隱患或者系統(tǒng)級別的BUG。 驗收時,通常不會對控制節(jié)點和模塊進行全量驗證,而會采用按比例抽查的方式,這就可能導致部分節(jié)點的控制問題沒有被顯現(xiàn)出來。平時沒有問題,當觸發(fā)時可能產(chǎn)生故障。更為關(guān)鍵的是,這種故障不容易判斷和處理。 因此,在正式接維運營前,全量節(jié)點控制邏輯、關(guān)鍵閥門和設(shè)備控制互鎖保護、水系統(tǒng)和壓力系統(tǒng)門限值設(shè)定等功能檢測,以及接維后每年的例行維護變的非常重要。 案例:2020年3月,微軟East US樓宇自動化控制系統(tǒng)功能失靈導致一個數(shù)據(jù)中心多個機房的溫度急劇上升,從而影響了存儲、計算、網(wǎng)絡(luò)及其他相關(guān)服務(wù)。雖然冷卻系統(tǒng)擁有N + 1冗余機制,但是自動化控制系統(tǒng)故障導致起冷卻作用的空氣進量顯著減少,故障歷時6個小時。 7.缺乏與客戶間的有效的聯(lián)動 數(shù)據(jù)中心事故之所以會造成較大損失和產(chǎn)生較大影響,有一個很重要原因,就是客戶自身的業(yè)務(wù)系統(tǒng)沒有在第一時間實現(xiàn)切換。 雖然客戶基本都會搭建兩地三中心、雙活、多活等架構(gòu),但在實際操作中,當數(shù)據(jù)中心出現(xiàn)事故后,由于過度信任數(shù)據(jù)中心安全等級和自身應(yīng)急能力欠缺等原因,很多客戶并沒有在第一時間有效的組織業(yè)務(wù)系統(tǒng)的切換,從而影響了連續(xù)性。 單一數(shù)據(jù)中心的事故,并不應(yīng)該引發(fā)業(yè)務(wù)系統(tǒng)的中斷。甚至從某種意義上講,數(shù)據(jù)中心只對內(nèi)部的事故負責,業(yè)務(wù)沒有切換影響正常運行是客戶自身的問題。 ![]() 數(shù)據(jù)中心事故等級 這里有與客戶之間缺乏溝通的因素,有缺乏聯(lián)動處置的因素,也有客戶自身缺少有效預案、缺少實際演練、缺少風險防范措施,以及缺乏有效組織等因素,這些因素混合在一起是導致事故擴大的重要原因。 案例:2023年3月廣州電信機房冷卻系統(tǒng)事故,騰訊將此次故障判定為公司一級事故,暴露出容災(zāi)設(shè)計方案和應(yīng)急預案不完善的隱患,有關(guān)業(yè)務(wù)部門的風險防范意識不到位,并對大量人員進行了降級和免職處罰。唯品會將此次故障判定為P0級故障,屬于最高級別的故障,對部分負責人予以免職處理。 三、數(shù)據(jù)中心制冷事故預防措施 數(shù)據(jù)中心無法100%避免故障。運營人員只能通過良好的運維盡可能降低故障發(fā)生的概率和頻次,盡可能減小故障產(chǎn)生的影響,避免其轉(zhuǎn)化為事故,盡可能快的完成應(yīng)急處理,盡快完成搶通修復。 通過對以上事故的梳理總結(jié),數(shù)據(jù)中心運營人員除應(yīng)做好常規(guī)工作外,還需要重點做好以下幾個方面: 1.要重視驗收的重要性 驗收是對設(shè)計指標和建設(shè)結(jié)果的一個綜合驗證,絕不能被忽視和忽略,特別是對復雜度相當高的制冷系統(tǒng)。 很多驗收測試的項目具有一定的危險性,在投產(chǎn)后無法帶業(yè)務(wù)開展,因此必須在驗收時完成,主要包括: ①冷卻塔補水環(huán)網(wǎng)測試驗證 ②冷凍水管網(wǎng)環(huán)路測試驗證 ③冷凍水管路動態(tài)平衡驗證 ④蓄冷罐充冷釋冷在線測試 ⑤BA系統(tǒng)與蓄冷罐聯(lián)動測試 ⑥BA系統(tǒng)手控自控切換測試 有條件的情況下,不光要做功能性測試,還可以對控制系統(tǒng)的控制邏輯做破壞性測試。比如異常啟停、斷電恢復、手自切換等等,檢驗BA系統(tǒng)自身應(yīng)對故障的能力。 2.要重視經(jīng)驗的重要性 現(xiàn)階段,制冷系統(tǒng)雖然有AI參與、有多模型參與,但更多是對一些可標準化的情形進行判斷和處理。當出現(xiàn)復雜、個性的問題時,經(jīng)驗的重要性就會體現(xiàn)出來 ,并且無法被替代。 經(jīng)驗是對已發(fā)生事情的積累,經(jīng)驗越多,看問題就越全面、深刻,判斷準確性和處置效率就越高。 家有一老如有一寶,很多數(shù)據(jù)中心似乎對40+的老人存在偏見。但在數(shù)據(jù)中心投產(chǎn)初期,這些經(jīng)驗豐富的老人,將是一筆巨大的財富,他們可能經(jīng)歷過很多故障、做過很多應(yīng)急,能讓一個數(shù)據(jù)中心從投產(chǎn)開始就很好的規(guī)避這些風險。 還要注意一點,不要過度信任設(shè)計單位和建設(shè)單位,要信任自己的運維人員,在運營過程中遇到的設(shè)計和建設(shè)問題比比皆是。 3.要時刻關(guān)注性能數(shù)據(jù)的變化 數(shù)據(jù)中心各個生產(chǎn)班組,每天都在進行巡檢、巡查,抄錄各種運行數(shù)據(jù)和性能數(shù)據(jù),但更多只是關(guān)注這些數(shù)據(jù)有沒有在正常的范圍內(nèi),而沒有去關(guān)注這些數(shù)據(jù)的變化情況。
以機房冷通道溫度為例,如果連續(xù)三次性能數(shù)據(jù)顯示溫度為20℃、21℃、22℃,看似都在正常范圍內(nèi),但這種升溫的趨勢應(yīng)該被關(guān)注。運維人員很有必要對系統(tǒng)或者現(xiàn)場進行檢查,判斷是否有異常情況發(fā)生。 這種溫升雖然大概率不會是系統(tǒng)故障,但是對性能數(shù)據(jù)變化的監(jiān)測就像火災(zāi)監(jiān)控系統(tǒng)中的極早期系統(tǒng)一樣,是對故障的早期預警,不僅能降低故障發(fā)生的概率,增加故障處置的時間,更能有效的控制故障轉(zhuǎn)化為事故。 4.要按照最小應(yīng)急原則配置人員 2024年8月微軟澳大利亞東區(qū)Azure制冷事故告訴我們,減少人員配置可以滿足日常工作,但是需要應(yīng)急處置時可能會出現(xiàn)人手不足的問題。 數(shù)據(jù)中心在規(guī)劃人員配置時,最好要按最大應(yīng)急事件發(fā)生時,所需要的最小人員數(shù)量進行匹配,確保可以滿足所有應(yīng)急場景。 此次故障中,微軟列舉了多項緩解措施,其中包括在數(shù)據(jù)中心增加技術(shù)人員配置,夜班團隊臨時從三名技術(shù)人員增加到七名。 合理配置運維人員有符合標準規(guī)范、匹配最小應(yīng)急和實現(xiàn)最大復用3個基本原則,詳細可以參考《降本增效的大環(huán)境下,數(shù)據(jù)中心應(yīng)該如何合理的配置運維人員》一文。 ![]() 5.要時刻保持應(yīng)急狀態(tài) 除了要做好應(yīng)急預案、應(yīng)急演練、應(yīng)急隊伍和應(yīng)急物資等幾個常規(guī)方面外,還要重點做好應(yīng)急供冷的準備。 現(xiàn)階段,常規(guī)的應(yīng)急供冷主要包括蓄冷罐供冷、干冰供冷、冰塊供冷和風扇通風等幾種方式,相關(guān)注意事項如下: ![]() ①蓄冷罐供冷:比較常見,但需要確保釋冷過程中流量的平衡,以及配套EPS蓄電池的可用性。 ②干冰應(yīng)急制冷:干冰屬于危險品,在存儲和使用上要特別注意。干冰在降溫過程中會產(chǎn)生二氧化碳,在使用時一定要確保機房與外部通風。 數(shù)據(jù)機房氣流實際為內(nèi)循環(huán),新風系統(tǒng)換氣量并不大。在干冰制冷時,需要通過增加工業(yè)風扇等方式加大與外界的空氣流通,以降低機房內(nèi)二氧化碳濃度,保證人身安全。 另外,干冰溫度極低,人體在接觸干冰時必須使用防凍手套,如果直接用手接觸干冰,很可能會因低溫而導致凍傷。 ③冰塊應(yīng)急供冷:冰塊一直被作為數(shù)據(jù)中心重要的應(yīng)急冷源,近幾次事故中也有用到。 但冰塊換熱效率不高,對高密度機柜來說幾乎沒有作用。釋冷過程還會產(chǎn)生一定量的水,要特別關(guān)注濕度的變化、做好防水,避免影響IT系統(tǒng)安全,引起事故的擴大。 6.要與客戶建立快速溝通渠道 一方面,要與客戶充分信任,并建立快速溝通渠道。當制冷系統(tǒng)出現(xiàn)故障時,不要害怕可能引發(fā)的SLA考核索賠等,應(yīng)該第一時間告知客戶,讓客戶提前做好準備,在需要時能夠快速斷電和業(yè)務(wù)切換。要知道這點考核與客戶業(yè)務(wù)切換不及時引發(fā)的事故相比,微不足道。 另一方面,要協(xié)助客戶建立自身的預案并協(xié)同開展演練,確保第一時間能完成業(yè)務(wù)切換。 業(yè)務(wù)切換成功,數(shù)據(jù)中心就有解釋的余地,追責可能也會變小。業(yè)務(wù)切換失敗,所有的責任必然會落到數(shù)據(jù)中心,所以不要覺得客戶業(yè)務(wù)系統(tǒng)的預案與數(shù)據(jù)中心無關(guān)。 近幾年,隨著規(guī)?;慕ㄔO(shè)轉(zhuǎn)向規(guī)?;倪\營,全球數(shù)據(jù)中心的火災(zāi)、電氣、制冷和自然災(zāi)害等之前認為小概率的事件都已經(jīng)在大概率的發(fā)生。 整個行業(yè)要從每一起事故中吸取教訓,認真比對分析,事前預防遠比事中應(yīng)急和事后復盤更加重要,成功的秘訣往往隱藏在周密的準備之中。 |
|
|