|
數(shù)據(jù)機房最怕的是什么?除了火災、水災之外,最怕的應該是停電,一般的跳電,機房有UPS,不會受影響,可是遇到停電,年久不維護的UPS電池,早就拉垮了,就算有通訊卡監(jiān)測電池狀態(tài),服務器還沒來得及關(guān)機,就被迫非法關(guān)機了。 一旦服務器被迫非法關(guān)機,供電恢復的時候,還能不能起來就看運氣了,站在嘈雜的機房里,那種糾結(jié)、緊張、彷徨的心情,真的是難以用語言文字來表達。
這不,今天又來一個:戴爾R710服務器,連接不上磁盤柜了,IT慌得很,關(guān)鍵還在報電源故障,沒停電的時候,電源正常工作,idrac也沒有報任何故障,就停一下電,電源還報故障了。
一把年紀的服務器了,也沒配置雙電源,報錯就報錯吧,起碼還能開機,已經(jīng)不錯了,電源先訂貨,沒那么快到,還是得解決磁盤柜的連接問題。 服務器關(guān)機,磁盤柜關(guān)機,切斷電源,打開服務器機蓋,拔HBA卡,清理主板插槽,橡皮用力擦HBA卡金手指,清理灰塵,插回服務器,磁盤柜開機,服務器開機,風聲大作中,焦急而忐忑地等待著。 好不容易連上磁盤柜了,發(fā)現(xiàn)有硬盤顯示:“Predictive Fail”,意思是失效預警,直白點來講,就是有硬盤要壞了,得更換。 硬盤在正常的讀/寫過程中會發(fā)生錯誤,錯誤多了就稱為“壞塊”。每個硬盤都有壞塊的閾值,一旦達到此閾值,控制器會將硬盤的狀態(tài)更改為“Predictive Fail”。雖然硬盤暫時還能工作,但是隨時出故障的概率很高,強烈建議更換。 當然,更換硬盤是有講究的,不是拔出舊硬盤,插入新硬盤那么簡單的,在更換之前必須將其從 RAID 卷中安全移除。 啟動MDSM。如果您有多個PowerVault陣列,請選擇對應的陣列。如果硬盤正常工作,則狀態(tài)顯示為“Optimal”;如果硬盤有預測性故障,則狀態(tài)將更改為"Need attention" 鼠標右擊有問題的硬盤,并選擇 Advanced,然后選擇 Fail;
系統(tǒng)會彈出一個提示框,要求您確認操作,輸入“Yes”進行確認即可。 如果當前有備用磁盤,請保持復選框“Copy contents of physical disk before failing”處于選中狀態(tài),即將發(fā)生故障的磁盤上的數(shù)據(jù)會被復制到備用磁盤,并在復制完成后下線該磁盤,此過程需要一段時間,根據(jù)數(shù)據(jù)量大小決定時間長短。 如果沒有備用磁盤,或者磁盤柜滿插狀態(tài),無法增加備用磁盤,那么請取消選中“Copy contents of physical disk before failing”復選框,當該磁盤狀態(tài)被置為“Failed”,并標記紅色叉號時,就可以更換磁盤了。 類似操作,務必謹慎,切勿盲目動手,畢竟硬件有價,數(shù)據(jù)無價,其實更重要的是,平時多注意備份,那就不至于措手不及了,小心駛得萬年船,老話不會錯的。 |
|
|