一、問題背景:一場搬遷后引發(fā)的連鎖故障為某客戶的主域服務器升級內(nèi)存,因為我們知道有備域,所以也就沒多想,直接關(guān)閉了主域服務器,可是剛打開機箱蓋,就有用戶反饋,不能上網(wǎng)了,緊接著,各部門都來反饋斷網(wǎng),難道隔壁機房的備域也掛了? 取了鑰匙,開隔壁機房的門,跑到服務器跟前一看,電源燈都不亮,按開機鍵沒反應,繞到后面一看,好嘛,冗余電源,愣是一根電源線都沒插。 插上電源線,開機,懷著忐忑的心情看著服務器啟動,好不容易進了系統(tǒng),”服務器管理器“報了一堆DNS錯誤,馬上打開DNS服務,重啟DNS服務,切換到”監(jiān)測“頁面,點了幾次”立即測試“,貌似沒啥問題。 但是“服務器管理器”還在持續(xù)報錯,不用多想,肯定是這臺備域脫離太久,沒有同步信息了,問了一下客戶,說是不知道誰拔了備域服務器的電源線。好吧,我先不管了,反正當初搬過來的時候,確定以及肯定備域是正常開機的。這會兒先把主域服務器的內(nèi)存升級完成后,備域再同步一下就好了。
二、核心解決步驟:三步重建時間與域控同步步驟1:緊急配置NTP時間同步(關(guān)鍵基礎(chǔ))操作要點: 備域上重啟NTP服務 在備域上以管理員身份運行CMD,執(zhí)行以下命令: w32tm /config /syncfromflags:domhier /update # 設(shè)置從域?qū)蛹壨綍r間 net stop w32time && net start w32time # 重啟時間服務
強制客戶端同步時間 接著執(zhí)行強制同步命令: w32tm /resync /rediscover # 重新發(fā)現(xiàn)時間源
驗證時間同步狀態(tài) 通過以下命令確認同步狀態(tài): w32tm /query /status | findstr "源" # 正常輸出應顯示主域控名稱,偏差值應<1ms
步驟2:重建域控間數(shù)據(jù)同步(核心修復)操作流程: 強制AD數(shù)據(jù)庫復制 在主域控執(zhí)行跨域控復制命令: repadmin /syncall /force # 強制同步所有伙伴服務器 repadmin /showrepl # 查看復制狀態(tài),入站鄰居下的每一項都顯示嘗試成功,就沒問題了
修復SYSVOL共享 當出現(xiàn)SYSVOL狀態(tài)異常時,執(zhí)行: dfsrmig /setglobalstate 0 # 重置文件復制狀態(tài) net stop dfsr && net start dfsr # 重啟文件復制服務
本案例并未提示SYSVOL共享故障,所以并未執(zhí)行以上命令。
步驟3:驗證與監(jiān)控(確保穩(wěn)定性)驗證清單: - 時間同步:所有域成員執(zhí)行
w32tm /query /source應顯示主域控 - AD健康檢查:
dcdiag /test:replications /v # 目錄服務器診斷 netdom query fsmo # 確認FSMO五個角色持有者
- 監(jiān)控建議:部署Windows事件日志訂閱,重點關(guān)注事件ID 135(時間服務異常)、1202(AD復制失敗)
三、故障預防與最佳實踐機房專人專管 定期巡檢 災備及監(jiān)測方案 - 建立Zabbix等監(jiān)測服務,配置郵件或者微信告警,及時接收故障信息。
五、總結(jié)本次故障處理耗時約1小時,核心教訓在于:機房無人管理,服務器被拔了電源線都不知道,萬一被拔掉的是硬盤呢?去哪里找回來?
|