电竞比分网-中国电竞赛事及体育赛事平台

分享

IT巡檢內(nèi)容、方法大全

 yi321yi 2017-01-03

目 錄

1.  概述 

1.1  范圍定義

1.2  內(nèi)容說(shuō)明

2.  巡檢維度 

2.1  基礎(chǔ)設(shè)施狀況 

2.2  容量狀況

2.3  性能狀況

2.4  信息安全

2.5  業(yè)務(wù)連續(xù)性

3.  巡檢內(nèi)容

3.1  系統(tǒng)整體架構(gòu)

3.2  機(jī)房環(huán)境

3.3  網(wǎng)絡(luò)系統(tǒng)

3.4  存儲(chǔ)系統(tǒng)

3.5  主機(jī)系統(tǒng)

3.6  數(shù)據(jù)庫(kù)系統(tǒng)

3.6.1 Oracle 數(shù)據(jù)庫(kù)

3.6.2 DB2 數(shù)據(jù)庫(kù)

3.7  中間件系統(tǒng)

3.8  應(yīng)用系統(tǒng)

3.9  備份與恢復(fù)系統(tǒng)

4.  巡檢方法

4.1  IBM 主機(jī)

4.2  IBM HACM PCluster

4.3  HP 主機(jī)

4.4  HP MC/ServiceGuard Cluster

4.5  SUN 主機(jī)

4.6  VCS Cluster

4.7  網(wǎng)絡(luò)部分

4.7.1 XX 網(wǎng)絡(luò)設(shè)備

4.7.2 XX 網(wǎng)絡(luò)設(shè)備

5.  FAQ

5.1  機(jī)房環(huán)境

5.2  網(wǎng)絡(luò)系統(tǒng)

5.3  存儲(chǔ)系統(tǒng)

5.4  主機(jī)系統(tǒng)

5.4.1 sun solaris 主機(jī)命令

5.4.2 IBM AIX 主機(jī)命令

5.4.3 HP-UX 主機(jī)命令

5.5  數(shù)據(jù)庫(kù)系統(tǒng)

5.5.1 Oracle 數(shù)據(jù)庫(kù)

5.5.2 DB2 數(shù)據(jù)庫(kù)

5.6  中間件系統(tǒng)

5.7  應(yīng)用系統(tǒng)

6.  附錄 1 詞匯表

7.  附錄 2 參考資料


1. 概述

1.1 范圍定義

對(duì) IT 系統(tǒng)巡檢的邏輯組成,通過(guò)對(duì)范圍定義的與 IT 系統(tǒng)相關(guān)的維度的評(píng)估,定位當(dāng)前 IT 系統(tǒng)的健康狀況,指導(dǎo)建立改進(jìn)方案與方針。

1.2 內(nèi)容說(shuō)明

對(duì) IT 系統(tǒng)巡檢的具體評(píng)估指標(biāo), 用于支持對(duì)范圍所定義的維度評(píng)估結(jié)論, 提供具體的數(shù)據(jù)支持;用于給客戶提供巡檢類(lèi)報(bào)告的數(shù)據(jù)提供數(shù)據(jù)支持。

2. 巡檢維度

對(duì) IT 系統(tǒng)巡檢的評(píng)估維度主要包括以下五個(gè)方面:


一個(gè)完備的 IT 系統(tǒng)建設(shè)應(yīng)該包括上述所有相關(guān)解決方案, 而客戶應(yīng)用系統(tǒng)中在這幾方面體現(xiàn)了不同的完備程度。由于用戶行業(yè)與業(yè)務(wù)特點(diǎn),對(duì)這些范圍的側(cè)重程度不同, 因此我們?cè)谠u(píng)估特定行業(yè)用戶的 IT 系統(tǒng)之初, 要充分考慮這種行業(yè)因素,所得出的結(jié)論也是對(duì)特點(diǎn)行業(yè)用戶有指導(dǎo)意義的評(píng)估結(jié)果。

2.1 基礎(chǔ)設(shè)施狀況

IT 基礎(chǔ)設(shè)施包括系統(tǒng)軟件平臺(tái)和硬件基礎(chǔ)設(shè)平臺(tái)。

系統(tǒng)軟件平臺(tái)主要包括操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件。

硬件基礎(chǔ)設(shè)平臺(tái)主要包括網(wǎng)絡(luò)通訊平臺(tái)和服務(wù)器系統(tǒng)平臺(tái)以及存儲(chǔ)系統(tǒng)平臺(tái)。

對(duì)基礎(chǔ)設(shè)施狀況的評(píng)估內(nèi)容包括:

 IT 系統(tǒng)運(yùn)維環(huán)境狀況

 IT 系統(tǒng)硬件運(yùn)行狀況

 IT 系統(tǒng)軟件平臺(tái)運(yùn)行狀況

 IT 系統(tǒng)鏈路狀況

2.2 容量狀況

由于 IT 系統(tǒng)的業(yè)務(wù)和服務(wù)需求可能每天都在發(fā)生變化,信息系統(tǒng)有時(shí)會(huì)遇到帶寬和存儲(chǔ)能力不足的問(wèn)題。 要與 IT 系統(tǒng)當(dāng)前和將來(lái)的業(yè)務(wù)需求相符意味著必須經(jīng)常地測(cè)定容量。容量規(guī)劃是一種性能價(jià)格比很高的手段,可以根據(jù)以往的性能統(tǒng)計(jì)數(shù)字預(yù)知潛在的資源短缺情況。

正確的對(duì)當(dāng)前 IT 系統(tǒng)的容量狀況做出評(píng)估, 是掌握和預(yù)測(cè)系統(tǒng)當(dāng)前和未來(lái)可用程度的一個(gè)重要標(biāo)志之一,進(jìn)而也以此為依據(jù)做出合理的容量規(guī)劃。

對(duì)容量狀況的評(píng)估主要包括:

 網(wǎng)絡(luò)帶寬負(fù)載狀況

 存儲(chǔ)的容量狀況

 主機(jī)系統(tǒng)負(fù)載情況

 業(yè)務(wù)系統(tǒng)所能承載的吞吐量

 軟件平臺(tái)參數(shù)配置適用度。

2.3 性能狀況

IT 系統(tǒng)所提供的業(yè)務(wù)的性能,是當(dāng)前業(yè)界評(píng)價(jià) IT 系統(tǒng)實(shí)施成功與否的主要標(biāo)準(zhǔn)之一。

通常對(duì) IT 系統(tǒng)性能狀況評(píng)估的對(duì)象為具體的業(yè)務(wù)功能模塊, 但并不是針對(duì)所有的業(yè)務(wù)功能模塊,對(duì)這些模塊的選取一般遵循以下原則:

 系統(tǒng)日常運(yùn)行中,使用頻率高的功能模塊;

 系統(tǒng)日常運(yùn)行中,業(yè)務(wù)容易產(chǎn)生相對(duì)大并發(fā)量的功能模塊;

 涉及到的大數(shù)據(jù)量表操作的功能模塊;

 用戶反映性能問(wèn)題突出的模塊。

通過(guò)選取具有代表性的功能模塊,進(jìn)行性能評(píng)測(cè),得出當(dāng)前系統(tǒng)的性能狀況,而這種巡檢的環(huán)境需要接近真實(shí)環(huán)境才具有說(shuō)服力。 而本 IT 系統(tǒng)預(yù)防性巡檢活動(dòng)通常是在真實(shí)的生產(chǎn)環(huán)境下完成,因此需要采取適合現(xiàn)場(chǎng)環(huán)境的性能評(píng)估手段來(lái)完成。

對(duì) IT 業(yè)務(wù)系統(tǒng)的性能評(píng)估主要包括以下三個(gè)方面:

 業(yè)務(wù)系統(tǒng)的響應(yīng)性能狀況

 業(yè)務(wù)系統(tǒng)的穩(wěn)定性性能狀況

 業(yè)務(wù)容量性能狀況

業(yè)務(wù)系統(tǒng)的響應(yīng)性能指的是在正常業(yè)務(wù)并發(fā)負(fù)載下,以響應(yīng)時(shí)間為主要關(guān)注點(diǎn)的業(yè)務(wù)模塊操作的執(zhí)行時(shí)間,通常單位為秒;

業(yè)務(wù)系統(tǒng)的穩(wěn)定性性能的主要關(guān)注點(diǎn)則是在長(zhǎng)時(shí)間較大負(fù)載壓力下,業(yè)務(wù)系統(tǒng)能夠正常完成業(yè)務(wù)操作的程度;

業(yè)務(wù)容量性能狀況指的是當(dāng)前業(yè)務(wù)系統(tǒng)負(fù)載承受能力,目的是了解系統(tǒng)的業(yè)務(wù)壓力可承受的范圍,以便在峰值到來(lái)之前做出應(yīng)對(duì)措施,通常關(guān)注的性能指標(biāo)為并發(fā)量和業(yè)務(wù)的吞吐量。

2.4 信息安全

這里把信息安全定義為信息系統(tǒng)數(shù)據(jù)不會(huì)被非法用戶在未經(jīng)授權(quán)的情況下取得或破壞。信息安全所涉及的技術(shù)與業(yè)務(wù)層面很廣,以下是對(duì)其簡(jiǎn)要分類(lèi):

1.物理安全

保護(hù)信息系統(tǒng)的機(jī)房環(huán)境、設(shè)備、設(shè)施、媒體和信息免遭自然災(zāi)害、環(huán)境事故、人為物理操作失誤、各種以物理手段進(jìn)行的違法犯罪行為導(dǎo)致的破壞、丟失。

2.網(wǎng)絡(luò)系統(tǒng)安全

網(wǎng)絡(luò)防護(hù)安全是數(shù)中心據(jù)安全的重要組成部分。網(wǎng)絡(luò)安全模式要求數(shù)據(jù)中心首先分析自己的網(wǎng)絡(luò)系統(tǒng),并從中找出不同業(yè)務(wù)、數(shù)據(jù)和安全策略的分界線,在這些分界線上構(gòu)建 IT 系統(tǒng)安全等級(jí)不同的安全域。

在安全域劃分的基礎(chǔ)上,通過(guò)采用入侵檢測(cè)、漏洞掃描、病毒防治、防火墻、網(wǎng)絡(luò)隔離、安全虛擬專網(wǎng)(VPN)等成熟技術(shù),利用物理環(huán)境保護(hù)、邊界保護(hù)、系統(tǒng)加固、節(jié)點(diǎn)數(shù)據(jù)保護(hù)、數(shù)據(jù)傳輸保護(hù)等手段,通過(guò)對(duì)網(wǎng)絡(luò)和系統(tǒng)安全防護(hù)的統(tǒng)一設(shè)計(jì)和統(tǒng)一配置,實(shí)現(xiàn) IT 系統(tǒng)全系統(tǒng)高效、可靠的網(wǎng)絡(luò)安全防護(hù)。

3.操作系統(tǒng)安全

操作系統(tǒng)提供若干種基本的機(jī)制和能力來(lái)支持信息系統(tǒng)和應(yīng)用程序安全,如身份鑒別、訪問(wèn)控制、審計(jì)等等。目前主流的商用操作系統(tǒng)主要有 UNIX、LINUX和 Windows 平臺(tái)。由于商用的普遍性特點(diǎn),這些系統(tǒng)都存在許多安全弱點(diǎn),甚至包括結(jié)構(gòu)上的安全隱患, 比如超級(jí)管理員/系統(tǒng)管理員的不受控制的權(quán)限、 緩沖區(qū)溢出攻擊、病毒感染等。

操作系統(tǒng)的安全是上層應(yīng)用安全的基礎(chǔ)。提高操作系統(tǒng)本身的安全等級(jí)尤為關(guān)鍵,除了及時(shí)打 Patch 外,還要采用如下的加強(qiáng)措施:

 身份鑒別機(jī)制:實(shí)施強(qiáng)認(rèn)證方法,比如口令、數(shù)字證書(shū)等;

 訪問(wèn)控制機(jī)制:實(shí)施細(xì)粒度的用戶訪問(wèn)控制、細(xì)化訪問(wèn)權(quán)限等;

 數(shù)據(jù)保密性:對(duì)關(guān)鍵信息、數(shù)據(jù)要嚴(yán)加保密;

 完整性:防止數(shù)據(jù)系統(tǒng)被惡意代碼比如病毒破壞,對(duì)關(guān)鍵信息進(jìn)行數(shù)字簽名技術(shù)保護(hù);

 系統(tǒng)的可用性: 不能訪問(wèn)的數(shù)據(jù)等于不存在, 不能工作的業(yè)務(wù)進(jìn)程也毫無(wú)用處。

因此操作系統(tǒng)要加強(qiáng)應(yīng)對(duì)攻擊的能力,比如防病毒、防緩沖區(qū)溢出攻擊等;

 審計(jì):審計(jì)是一種有效的保護(hù)措施,它可以在一定程度上阻止對(duì)信息系統(tǒng)的威脅,并對(duì)系統(tǒng)檢測(cè)、故障恢復(fù)方面發(fā)揮重要作用。

4.數(shù)據(jù)庫(kù)安全

數(shù)據(jù)庫(kù)安全性問(wèn)題應(yīng)包括兩個(gè)部分:一、數(shù)據(jù)庫(kù)數(shù)據(jù)的安全。它應(yīng)能確保當(dāng)數(shù)據(jù)庫(kù)系統(tǒng) DownTime 時(shí), 當(dāng)數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)媒體被破壞時(shí)以及當(dāng)數(shù)據(jù)庫(kù)用戶誤操作時(shí),數(shù)據(jù)庫(kù)數(shù)據(jù)信息不至于丟失;二、數(shù)據(jù)庫(kù)系統(tǒng)不被非法用戶侵入。它應(yīng)盡可能地堵住潛在的各種漏洞,防止非法用戶利用它們侵入數(shù)據(jù)庫(kù)系統(tǒng)。

5.數(shù)據(jù)的傳輸安全

為保證業(yè)務(wù)數(shù)據(jù)在傳輸過(guò)程的真實(shí)可靠,需要有一種機(jī)制來(lái)驗(yàn)證活動(dòng)中各方的真實(shí)身份。 安全認(rèn)證是維持業(yè)務(wù)信息傳輸正常進(jìn)行的保證, 它涉及到安全管理、加密處理、 PKI 及認(rèn)證管理等重要問(wèn)題。 應(yīng)用安全認(rèn)證系統(tǒng)采用國(guó)際通用的 PKI技術(shù)、X.509 證書(shū)標(biāo)準(zhǔn)和 X.500 信息發(fā)布標(biāo)準(zhǔn)等技術(shù)標(biāo)準(zhǔn)可以安全發(fā)放證書(shū),進(jìn)行安全認(rèn)證。當(dāng)然,認(rèn)證機(jī)制還需要法律法規(guī)支持。安全認(rèn)證需要的法律問(wèn)題包括信用立法、電子簽名法、電子交易法、認(rèn)證管理法律等。

6.應(yīng)用身份鑒定

由于傳統(tǒng)的身份認(rèn)證多采用靜態(tài)的用戶名/口令身份認(rèn)證機(jī)制, 客戶端發(fā)起認(rèn)證請(qǐng)求, 由服務(wù)器端進(jìn)行認(rèn)證并響應(yīng)認(rèn)證結(jié)果。 用戶名/口令這種身份認(rèn)證機(jī)制的優(yōu)點(diǎn)是使用簡(jiǎn)單方便,但是由于沒(méi)有全面的安全性方面的考慮,所以這種機(jī)制存在諸多的安全隱患??梢圆捎茫弘p因子認(rèn)證和 CA 認(rèn)證兩種解決方案。

7.應(yīng)用授權(quán)管理

權(quán)限管理系統(tǒng)是 IT 系統(tǒng)信息安全基礎(chǔ)設(shè)施的重要組成部分,是 ICDC 信息系統(tǒng)授權(quán)管理體系的核心。它將授權(quán)管理和訪問(wèn)控制決策機(jī)制從具體的應(yīng)用系統(tǒng)中剝離出來(lái),采用基于角色的訪問(wèn)控制(RBAC,Role Based Access Controls)技術(shù),通過(guò)分級(jí)的、自上而下的權(quán)限管理職能的劃分和委派,建立統(tǒng)一的特權(quán)管理基礎(chǔ)設(shè)施(PMI,Privilege Management Infrastructure) ,在統(tǒng)一的授權(quán)管理策略的指導(dǎo)下實(shí)現(xiàn)分布式的權(quán)限管理。

權(quán)限管理系統(tǒng)能夠按照統(tǒng)一的策略實(shí)現(xiàn)層次化的信息資源結(jié)構(gòu)和關(guān)系的描述和管理,提供統(tǒng)一的、基于角色和用戶組的授權(quán)管理,對(duì)授權(quán)管理和訪問(wèn)控制決策策略進(jìn)行統(tǒng)一的描述、 管理和實(shí)施, 提供基于屬性證書(shū)和 LDAP 的策略和授權(quán)信息發(fā)布功能,構(gòu)建高效的決策信息庫(kù)和決策信息庫(kù)的更新、同步機(jī)制,面向各類(lèi)應(yīng)用系統(tǒng)提供統(tǒng)一的訪問(wèn)控制決策計(jì)算和決策服務(wù)。建立統(tǒng)一的權(quán)限管理系統(tǒng),不僅能夠解決面向單獨(dú)業(yè)務(wù)系統(tǒng)或軟件平臺(tái)設(shè)計(jì)的權(quán)限管理機(jī)制帶來(lái)的權(quán)限定義和劃分不統(tǒng)一、各訪問(wèn)控制點(diǎn)安全策略不一致、管理操作冗余、管理復(fù)雜等問(wèn)題, 還能夠提高授權(quán)的可管理性, 降低授權(quán)管理的復(fù)雜度和管理成本,方便應(yīng)用系統(tǒng)的開(kāi)發(fā),提高整個(gè)系統(tǒng)的安全性和可用性。

8.應(yīng)用訪問(wèn)控制

訪問(wèn)控制是 IT 系統(tǒng)安全防范和保護(hù)的主要核心策略, 它的主要任務(wù)是保證信息資源不被非法使用和訪問(wèn)。訪問(wèn)控制規(guī)定了主體對(duì)客體訪問(wèn)的限制,并在身份識(shí)別的基礎(chǔ)上,根據(jù)身份對(duì)提出資源訪問(wèn)的請(qǐng)求加以控制。它是對(duì)信息系統(tǒng)資源進(jìn)行保護(hù)的重要措施,也是計(jì)算機(jī)系統(tǒng)最重要和最基礎(chǔ)的安全機(jī)制。根據(jù)控制手段和具體目的的不同, 數(shù)據(jù)中心的訪問(wèn)控制技術(shù)包括以下幾個(gè)方面:入網(wǎng)訪問(wèn)控制、網(wǎng)絡(luò)權(quán)限控制、目錄級(jí)安全控制、屬性安全控制等,只有各種安全策略相互配合才能真正起到保護(hù)作用。

9.應(yīng)用審計(jì)追蹤

IT 系統(tǒng)的安全審計(jì)提供對(duì)用戶訪問(wèn)系統(tǒng)過(guò)程中所執(zhí)行操作進(jìn)行記錄的功能,將用戶在系統(tǒng)中發(fā)生的相關(guān)操作(如:系統(tǒng)登陸/退出、系統(tǒng)操作)記錄到數(shù)據(jù)庫(kù)中,以確保在需要的時(shí)候,對(duì)用戶歷史訪問(wèn)系統(tǒng)的操作進(jìn)行追溯。

通常審計(jì)跟蹤與日志恢復(fù)可結(jié)合起來(lái)使用,日記恢復(fù)處理可以很容易地為審計(jì)跟蹤提供審計(jì)信息。如果將審計(jì)功能與告警功能結(jié)合起來(lái),就可以在違反安全規(guī)則的事件發(fā)生時(shí),或在威脅安全的重要操作進(jìn)行時(shí),及時(shí)向安檢員發(fā)出告警信息,以便迅速采取相應(yīng)對(duì)策,避免損失擴(kuò)大。審計(jì)記錄應(yīng)包括以下信息:事件發(fā)生的時(shí)間和地點(diǎn);引發(fā)事件的用戶;事件的類(lèi)型;事件成功與否。

在 IT 系統(tǒng)中,審計(jì)可以是獨(dú)立工作的不相關(guān)的組件的集合,可以是相互關(guān)聯(lián)運(yùn)作的組件的集合。審計(jì)范圍包括操作系統(tǒng)和各種應(yīng)用程序。

10.安全管理與策略

IT 系統(tǒng)安全管理系統(tǒng)應(yīng)包括管理策略、管理組織保障、管理法規(guī)制度以及管理技術(shù)保障等內(nèi)容。

IT 系統(tǒng)安全是一個(gè)動(dòng)態(tài)不斷調(diào)整的過(guò)程,它隨著 IT 系統(tǒng)業(yè)務(wù)應(yīng)用和基礎(chǔ)設(shè)施的不斷發(fā)展而不斷改變,例如 IT 系統(tǒng)信息系統(tǒng)各個(gè)信息網(wǎng)絡(luò)、信息安全部件的具體設(shè)置規(guī)則,包括特定系統(tǒng)(設(shè)備)的口令管理策略、特定防火墻的過(guò)濾規(guī)則、特定認(rèn)證系統(tǒng)中的認(rèn)證規(guī)則、特定訪問(wèn)控制系統(tǒng)中的主體訪問(wèn)控制表、安全標(biāo)簽等。為了保證 IT 系統(tǒng)信息安全,及時(shí)進(jìn)行安全策略調(diào)整是必要。管理組織保障,實(shí)現(xiàn)對(duì)人員、系統(tǒng)、安全設(shè)備、物理環(huán)境和系統(tǒng)運(yùn)行的安全管理。另外,IT 系統(tǒng)安全策略應(yīng)遵照相關(guān)行業(yè)的法律、規(guī)定。

管理技術(shù)保障是 IT 系統(tǒng)安全運(yùn)行管理的技術(shù)保證。

2.5 業(yè)務(wù)連續(xù)性

連續(xù)性是指一個(gè)數(shù)據(jù)中心類(lèi)應(yīng)用為了維持其生存, 一旦發(fā)生突發(fā)事件或?yàn)?zāi)難后,在其所規(guī)定的時(shí)間內(nèi)必須恢復(fù)關(guān)鍵業(yè)務(wù)功能的強(qiáng)制性要求,這就需要預(yù)先發(fā)現(xiàn)可能會(huì)影響企業(yè)關(guān)鍵業(yè)務(wù)能力和過(guò)程的所有事件, 采取相應(yīng)的預(yù)防和處理策略,以保證企業(yè)在事件發(fā)生時(shí)業(yè)務(wù)不被中斷。通過(guò)業(yè)務(wù)連續(xù)性計(jì)劃保證數(shù)據(jù)中心業(yè)務(wù)的不間斷能力,即在災(zāi)難、意外發(fā)生的情況下,無(wú)論是數(shù)據(jù)中心組織結(jié)構(gòu)、業(yè)務(wù)操作和 IT 系統(tǒng),都可以以適當(dāng)?shù)膫溆梅绞嚼^續(xù)業(yè)務(wù)運(yùn)作。

嚴(yán)格的說(shuō),業(yè)務(wù)持續(xù)計(jì)劃的建立和實(shí)施過(guò)程,實(shí)際上是涉及數(shù)據(jù)中心運(yùn)營(yíng),因此也涉及到項(xiàng)目管理的方方面面。通過(guò)多年的實(shí)踐,根據(jù)自身實(shí)踐經(jīng)驗(yàn)并參照國(guó)際災(zāi)難恢復(fù)協(xié)會(huì)(DRI)與業(yè)務(wù)連續(xù)性協(xié)會(huì)(BCI)的標(biāo)準(zhǔn),總結(jié)出業(yè)務(wù)持續(xù)計(jì)劃的模型,經(jīng)過(guò)長(zhǎng)時(shí)間的驗(yàn)證,該業(yè)務(wù)持續(xù)計(jì)劃模型能夠給數(shù)據(jù)中心帶來(lái)有效及徹底的業(yè)務(wù)持續(xù)管理。

災(zāi)難恢復(fù)的技術(shù)實(shí)現(xiàn)和級(jí)別——

容災(zāi)按級(jí)別可分為數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)兩部分:

數(shù)據(jù)容災(zāi):在異地建立一個(gè)數(shù)據(jù)拷貝,這個(gè)拷貝在本地生產(chǎn)系統(tǒng)的“數(shù)據(jù)系統(tǒng)”出現(xiàn)不可恢復(fù)的“物理故障”時(shí),提供可用的數(shù)據(jù)。

應(yīng)用容災(zāi):在異地提供一個(gè)完整的應(yīng)用和數(shù)據(jù)系統(tǒng)拷貝(不一定要求同當(dāng)量),這個(gè)拷貝在本地生產(chǎn)系統(tǒng)出現(xiàn)不可恢復(fù)的“物理故障”時(shí),提供即時(shí)可用的生產(chǎn)系統(tǒng)。

1.平臺(tái)安全性

平臺(tái)完整性解決 ICDC 內(nèi)部業(yè)務(wù)平臺(tái)和接入平臺(tái)的高可靠性問(wèn)題。主要包括服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)層面的技術(shù)。

平臺(tái)完整性涉及的技術(shù)主要包括:服務(wù)器、存儲(chǔ)器、及相應(yīng)網(wǎng)絡(luò)連接的部件級(jí)可靠性技術(shù);平臺(tái)的集群技術(shù);Application Server 的高可靠技術(shù);數(shù)據(jù)庫(kù)的高可靠技術(shù)。

2.備份和恢復(fù)完整性

備份和恢復(fù)完整性實(shí)現(xiàn) IT 系統(tǒng)內(nèi)部對(duì)業(yè)務(wù)數(shù)據(jù)平臺(tái)的保護(hù)。 包括服務(wù)器和存儲(chǔ)層相關(guān)技術(shù)。

備份完整性涉及的技術(shù)主要包括基于磁帶、光盤(pán)等離線介質(zhì)的備份技術(shù)(或稱定點(diǎn)拷貝) ;以及基于在線存儲(chǔ)介質(zhì)(磁盤(pán))進(jìn)行的生產(chǎn)數(shù)據(jù)快照技術(shù)。

實(shí)現(xiàn)備份完整性目標(biāo),首先需要映射業(yè)務(wù)種類(lèi)所需要的數(shù)據(jù)集。即根據(jù)容災(zāi)備份系統(tǒng)的需求,明確哪些業(yè)務(wù)狀態(tài)數(shù)據(jù)需要備份,事實(shí)上,需要提供最完善備份的是穩(wěn)定的業(yè)務(wù)狀態(tài)數(shù)據(jù), 而處理流程當(dāng)中的中間臨時(shí)數(shù)據(jù)的備份需求較低。

另外,在備份完整性的實(shí)施過(guò)程中,應(yīng)該區(qū)分備份數(shù)據(jù)和存檔數(shù)據(jù)。備份數(shù)據(jù)是為滿足容災(zāi)備份的要求,具有較短的時(shí)效性,備份數(shù)據(jù)會(huì)根據(jù)一定的備份頻度被反復(fù)覆蓋。存檔數(shù)據(jù)則按照業(yè)務(wù)或法規(guī)的要求,有較長(zhǎng)的時(shí)效性,并具有不斷累積的特性。

在絕大多數(shù)數(shù)據(jù)中心應(yīng)用場(chǎng)合, 備份是經(jīng)常性的工作, 恢復(fù)是十分偶然的操作,因此, 恢復(fù)往往是難以經(jīng)過(guò)充分巡檢、 優(yōu)化的容災(zāi)備份技術(shù)---這就更加要求恢復(fù)操作具有明確的可預(yù)見(jiàn)性。

3.信息完整性

信息完整性實(shí)現(xiàn)對(duì)業(yè)務(wù)數(shù)據(jù)平臺(tái)的跨 ICDC 生產(chǎn)中心的保護(hù), 實(shí)現(xiàn)信息完整性技術(shù)是將業(yè)務(wù)連續(xù)性擴(kuò)展到容災(zāi)階段的一個(gè)十分關(guān)鍵的步驟。

信息完整性技術(shù)將生產(chǎn)中心的業(yè)務(wù)狀態(tài)數(shù)據(jù)完整地復(fù)制到備份中心。

實(shí)現(xiàn)信息完整性可以采用同步或異步復(fù)制技術(shù)。

4.處理完整性

處理完整性即對(duì)業(yè)務(wù)支撐系統(tǒng)平臺(tái)的完整的、跨越生產(chǎn)中心的保護(hù)。

實(shí)現(xiàn)處理完整性, 需要比較復(fù)雜的系統(tǒng)集成工作, 包括詳細(xì)的系統(tǒng)設(shè)計(jì)和規(guī)劃。

目前的大多數(shù)關(guān)鍵業(yè)務(wù)及其關(guān)聯(lián)子業(yè)務(wù)系統(tǒng)的容災(zāi)的級(jí)別要求為處理完整性。

實(shí)現(xiàn)處理完整性的關(guān)鍵在于以下三個(gè)要素:

 對(duì)數(shù)據(jù)平臺(tái)的保護(hù)-遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)(即信息完整性)和對(duì)業(yè)務(wù)平臺(tái)的保護(hù)-服務(wù)器、數(shù)據(jù)庫(kù)等冗余及切換技術(shù)以及應(yīng)用軟件切換技術(shù)的集成

 對(duì)接入平臺(tái)的保護(hù)和切換-外部接口的冗余和切換

 系統(tǒng)的監(jiān)控和切換

5.業(yè)務(wù)連續(xù)性管理

業(yè)務(wù)連續(xù)性管理是 IT 信息安全政策的宏觀管理文件, 該規(guī)范清楚說(shuō)明業(yè)務(wù)連續(xù)性計(jì)劃對(duì)于保障信息安全所采取態(tài)度、監(jiān)管責(zé)任以及信念。

業(yè)務(wù)連續(xù)性管理規(guī)范包含《災(zāi)難恢復(fù)預(yù)案》 、 《業(yè)務(wù)連續(xù)性計(jì)劃》等文件。這些規(guī)范從宏觀層面,涵蓋了災(zāi)難備份建設(shè)所涉及的內(nèi)容,其目的是要保護(hù)信息安全。根據(jù)這些規(guī)范,建立業(yè)務(wù)連續(xù)性計(jì)劃、災(zāi)難恢復(fù)預(yù)案,其中主要包括:災(zāi)難應(yīng)急小組的組織架構(gòu)和人員職責(zé), 應(yīng)急隊(duì)伍、 聯(lián)絡(luò)清單及各類(lèi)應(yīng)急處理流程,普及教育及人員培訓(xùn)計(jì)劃和演習(xí)計(jì)劃等,并報(bào)主管部門(mén)備案。

主管部門(mén)要對(duì)各單位災(zāi)難恢復(fù)預(yù)案進(jìn)行全面審核,評(píng)估災(zāi)難恢復(fù)預(yù)案的完整性和可操作性,配合\建立規(guī)范的管理制度和操作文檔。

定期進(jìn)行災(zāi)難演習(xí)與應(yīng)急培訓(xùn)。

3. 巡檢內(nèi)容

上一節(jié)完成了對(duì) IT 系統(tǒng)巡檢的關(guān)注方面的分析說(shuō)明, 這一節(jié)開(kāi)始介紹具體體現(xiàn)這些關(guān)注方面的指標(biāo),在實(shí)際檢查過(guò)程中,可以根據(jù)客戶的需要選取特定的指標(biāo)參數(shù),作為評(píng)估目標(biāo)系統(tǒng)的數(shù)據(jù)支持內(nèi)容。

3.1 系統(tǒng)整體架構(gòu)

以下內(nèi)容作為基本 IT 系統(tǒng)信息被首先調(diào)查記錄,供分析參考使用。

 IT 系統(tǒng)架構(gòu)拓?fù)鋱D

 網(wǎng)絡(luò)設(shè)備配置

---設(shè)備型號(hào), IOS 版本, 模塊型號(hào)和數(shù)量,用途

 存儲(chǔ)系統(tǒng)配置

---設(shè)備型號(hào), IO 帶寬, Cache 容量,磁盤(pán)數(shù)量,接入模式,存儲(chǔ)容量,LUN 配

置,所屬應(yīng)用

 主機(jī)系統(tǒng)配置

---設(shè)備型號(hào),CPU 配置(類(lèi)型,主頻,數(shù)量) ,內(nèi)存容量,網(wǎng)卡配置(數(shù)量,

速率) ,內(nèi)置硬盤(pán)配置(數(shù)量,容量,Raid) ,所屬應(yīng)用

 數(shù)據(jù)庫(kù)軟件

---產(chǎn)品名稱,版本號(hào),所屬應(yīng)用

 中間件軟件

---產(chǎn)品名稱,版本號(hào),JDK 版本,所屬應(yīng)用

 應(yīng)用系統(tǒng)

---產(chǎn)品名稱,版本號(hào),架構(gòu)平臺(tái),系統(tǒng)架構(gòu)類(lèi)型

3.2 機(jī)房環(huán)境


以上的條件可以現(xiàn)場(chǎng)觀察和詢問(wèn)用戶完成。

3.3 網(wǎng)絡(luò)系統(tǒng)

網(wǎng)絡(luò)設(shè)備



防火墻


IPS


IDS


VPN


3.4 存儲(chǔ)系統(tǒng)


3.5 主機(jī)系統(tǒng)



3.6 數(shù)據(jù)庫(kù)系統(tǒng)

3.6.1 Oracle 數(shù)據(jù)庫(kù)



3.6.2 DB2 數(shù)據(jù)庫(kù)




3.7 中間件系統(tǒng)


3.8 應(yīng)用系統(tǒng)


3.9 備份與恢復(fù)系統(tǒng)

備份與恢復(fù)系統(tǒng)是 IT 系統(tǒng)中重要的容災(zāi)措施,IT 系統(tǒng)應(yīng)該根據(jù)自身業(yè)務(wù)特點(diǎn)選取以下備份與恢復(fù)方案。

1.備份系統(tǒng)

設(shè)備系統(tǒng)備份:

部件的冗余

---包括網(wǎng)絡(luò)設(shè)備,主機(jī)設(shè)備,存儲(chǔ)設(shè)備內(nèi)部部件的冗余,保證在設(shè)備本身避免單點(diǎn)故障。

設(shè)備的冗余

---網(wǎng)絡(luò)層設(shè)備冗余包括交換設(shè)備的 HA 和線路冗余, 交換設(shè)備的 HA 可以實(shí)現(xiàn)故障發(fā)生時(shí)自動(dòng)切換。

---主機(jī)層設(shè)備冗余可以采用冷備與熱備兩種方式, 熱備即主機(jī)集群, 實(shí)現(xiàn)故障發(fā)生時(shí)自動(dòng)切換。

---存儲(chǔ)層的設(shè)備冗余指陣列間的鏡像和異地復(fù)制方案。

數(shù)據(jù)系統(tǒng)備份:

系統(tǒng)級(jí)歸檔備份

---一般采用磁帶備份方式,備份設(shè)備可選取磁帶機(jī)或磁帶庫(kù)

---制定備份策略,可以按一段時(shí)間周期,將完全備份、增量備份和差分備份組合使用制定備份策略。

---系統(tǒng)級(jí)歸檔備份的備份數(shù)據(jù)與在線生產(chǎn)數(shù)據(jù)存在備份間隔差異, 對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)采用這種備份時(shí)應(yīng)將數(shù)據(jù)庫(kù)設(shè)置為歸檔模式,來(lái)消除這種差異,保證數(shù)據(jù)的完整性。

存儲(chǔ)級(jí)數(shù)據(jù)備份

---本地鏡像

---同城容災(zāi)鏡像

---異地?cái)?shù)據(jù)傳輸,分為同步和異步模式。

應(yīng)用系統(tǒng)備份:

應(yīng)用系統(tǒng)備份基于網(wǎng)絡(luò)備份,主機(jī)系統(tǒng)備份和數(shù)據(jù)備份的整合,方案中涉及以下因素:

本地應(yīng)用系統(tǒng)備份,遠(yuǎn)程應(yīng)用系統(tǒng)備份

手動(dòng)應(yīng)用切換,自動(dòng)應(yīng)用切換

應(yīng)用系統(tǒng)備份是備份方案中級(jí)別最高的備份形式,而其中自動(dòng)應(yīng)用切換的遠(yuǎn)程系統(tǒng)備份方案則是最高級(jí)備份方案,保證應(yīng)用的完整性。

2.恢復(fù)系統(tǒng)

備份系統(tǒng)完成 IT 系統(tǒng)的容災(zāi)保證的一般工作, 恢復(fù)的成功與否是衡量備份方案有效的唯一標(biāo)志。

備份是多次重復(fù)工作,而恢復(fù)操作則較少發(fā)生,這種情況下,驗(yàn)證備份有效性就尤為重要。通過(guò)制定以下策略與措施,保證恢復(fù)策略的有效性:

  • 制定恢復(fù)應(yīng)急預(yù)案

  • 制定恢復(fù)流程

  • 定期進(jìn)行巡檢、培訓(xùn)與演習(xí)

4. 巡檢方法

對(duì)照巡檢計(jì)劃的安排,對(duì)主機(jī)系統(tǒng)進(jìn)行硬件、操作系統(tǒng)進(jìn)行功能及性能檢查。

注意:系統(tǒng)中所使用的每臺(tái)主機(jī)都要單獨(dú)列表檢查。

4.1 IBM 主機(jī)

巡檢對(duì)象:XX 系統(tǒng) XX 服務(wù)器(HOSTNAME)

巡檢目的:檢查 XX 系統(tǒng) XX 服務(wù)器的狀態(tài)

巡檢平臺(tái):XX 系統(tǒng)主機(jī),超級(jí)用戶

前提條件:線路通暢


4.2 IBM HACMP Cluster

巡檢對(duì)象:XX 項(xiàng)目雙機(jī)系統(tǒng)

巡檢目的:XX 系統(tǒng)雙機(jī)熱備功能正常

巡檢平臺(tái):XX 系統(tǒng)主機(jī),超級(jí)用戶

前提條件:線路通暢

4.3 HP 主機(jī)

巡檢對(duì)象:XX 系統(tǒng) XX 服務(wù)器(HOSTNAME)

巡檢目的:檢查 XX 系統(tǒng) XX 服務(wù)器的狀態(tài)

巡檢平臺(tái):XX 系統(tǒng)主機(jī),超級(jí)用戶

前提條件:線路通暢


4.4 HP MC/ServiceGuard Cluster

巡檢對(duì)象:XX 項(xiàng)目雙機(jī)系統(tǒng)

巡檢目的:XX 系統(tǒng)雙機(jī)熱備功能正常

巡檢平臺(tái):XX 系統(tǒng)主機(jī),超級(jí)用戶

前提條件:線路通暢



4.5 SUN 主機(jī)

巡檢對(duì)象:XX 系統(tǒng) XX 服務(wù)器(HOSTNAME)

巡檢目的:檢查 XX 系統(tǒng) XX 服務(wù)器的狀態(tài)

巡檢平臺(tái):XX 系統(tǒng)主機(jī),超級(jí)用戶

前提條件:線路通暢


4.6 VCS Cluster

巡檢對(duì)象:XX 系統(tǒng) XX 服務(wù)器(HOSTNAME)

巡檢目的:檢查 XX 系統(tǒng) XX 服務(wù)器的狀態(tài)

巡檢平臺(tái):XX 系統(tǒng)主機(jī),超級(jí)用戶

前提條件:線路通暢



4.7 網(wǎng)絡(luò)部分

對(duì)照巡檢計(jì)劃的安排,對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行硬件、操作系統(tǒng)進(jìn)行功能及性能巡檢。

注意:系統(tǒng)中所使用的每臺(tái)網(wǎng)絡(luò)設(shè)備都要單獨(dú)列表巡檢。

4.7.1 XX 網(wǎng)絡(luò)設(shè)備

巡檢對(duì)象:XX 系統(tǒng)網(wǎng)絡(luò)設(shè)備(NAME)

巡檢目的:XX 系統(tǒng)網(wǎng)絡(luò)設(shè)備的系統(tǒng)狀態(tài)

巡檢平臺(tái):XX 系統(tǒng)網(wǎng)絡(luò)設(shè)備,超級(jí)用戶

前提條件:線路通暢


4.7.2 XX 網(wǎng)絡(luò)設(shè)備

巡檢對(duì)象:XX 系統(tǒng)網(wǎng)絡(luò)設(shè)備(NAME)

巡檢目的:XX 系統(tǒng)網(wǎng)絡(luò)設(shè)備的系統(tǒng)狀態(tài)

巡檢平臺(tái):XX 系統(tǒng)網(wǎng)絡(luò)設(shè)備,超級(jí)用戶

前提條件:線路通暢


5. FAQ

5.1 機(jī)房環(huán)境

對(duì)機(jī)房的基礎(chǔ)設(shè)施配備應(yīng)該按照標(biāo)準(zhǔn)實(shí)施, 不符合標(biāo)準(zhǔn)的項(xiàng)目應(yīng)該盡可能整改,添加應(yīng)有設(shè)施。對(duì) UPS 的維護(hù)應(yīng)該定期進(jìn)行檢測(cè),巡檢其供電的有效時(shí)間,一旦發(fā)現(xiàn)電池老化應(yīng)盡快更換。

5.2 網(wǎng)絡(luò)系統(tǒng)

網(wǎng)絡(luò)設(shè)備


Cisco 系統(tǒng)的一些巡檢常用命令列表:

總體的信息收集  show tech

查看 ios 版本等信息 show version

查看 log  show log

查看設(shè)備的時(shí)鐘  show clock

查看接口狀態(tài)  show ip int bri

查看設(shè)備路由情況 show ip route

查看 ios 軟件包  show flash (或 show bootflash /show disk0)

防火墻


IPS

IDS



VPN


5.3 存儲(chǔ)系統(tǒng)



Sun T3 陣列的常用命令列表:

系統(tǒng)狀態(tài)  sys stat

系統(tǒng)配置  sys list

系統(tǒng)部件狀態(tài)  fru stat

系統(tǒng)部件列表  fru list

卷的列表和狀態(tài)  vol list,vol stat

SUN StorEdge 3000 系列陣列 cli 命令列表:

顯示陣列全部配置 show configuration

查看設(shè)備網(wǎng)絡(luò)狀態(tài) show network-parameters

組件狀態(tài)命令

show battery-status

show enclosure-status

show frus

查看磁盤(pán)信息  show disks

查看邏輯設(shè)備卷等

show logical-drives

show luns

查看分區(qū)狀態(tài)

show lun-maps

show partitions

show logical-volumes

顯示 firmware 版本

show ses-devices

show deses-devices

5.4 主機(jī)系統(tǒng)


5.4.1 sun solaris 主機(jī)命令

查看系統(tǒng)運(yùn)行狀況設(shè)備運(yùn)行狀況

tform/sun4u/sbin/prtdiag –v

查看系統(tǒng)日志

grep WARN /var/adm/messages*

grep error /adm/messages*

grep panic /adm/messages*

查看網(wǎng)絡(luò)狀態(tài)路由配置

ifconfig –a

netstat –rn

磁盤(pán)和分區(qū)使用情況

df –k

format

disksuit

metastat,metadb

volume manager

vxprint –ht

CPU

psrinfo

sar 1 10

vmstat

prstat

系統(tǒng)補(bǔ)丁  uname –a

進(jìn)程情況  ps –ef

磁盤(pán) IO 狀況有無(wú)錯(cuò)誤

iostat –En

iostat -xn 3

5.4.2 IBM AIX 主機(jī)命令

查看系統(tǒng)運(yùn)行狀況設(shè)備運(yùn)行狀況

prtconf

lscfg –pvv

查看系統(tǒng)日志

errpt

errpt -a|more

errpt -a -j 日志號(hào)

查看網(wǎng)絡(luò)狀態(tài)路由配置

ifconfig –a

netstat –rn

磁盤(pán)和分區(qū)使用情況

df –k

lsdev -Ccdisk

lsvg –o

lsvg –l 磁盤(pán)組

lsps -a

CPU

lsdev -Ccprocessor

系統(tǒng)補(bǔ)丁 

進(jìn)程情況  ps –ef

磁盤(pán) IO 狀況有無(wú)錯(cuò)誤  

iostat –En

iostat -xn 3

5.4.3 HP-UX 主機(jī)命令

查看系統(tǒng)運(yùn)行狀況設(shè)備運(yùn)行狀況 

查看系統(tǒng)日志

vi /var/adm/syslog/syslog.log

列出 I/O 卡的相關(guān)信息  ioscan -fn

查看網(wǎng)絡(luò)狀態(tài)路由配置

lanscan

netstat –rn

磁盤(pán)和分區(qū)使用情況 

bdf

vgdisplay -v vgxx

lvdisplay -v LVxx

ioscan -funC disk

pvdisplay -v /dev/dsk/c*t*d*

CPU

系統(tǒng) ID OS 版本  uname -a

進(jìn)程情況  ps –ef

磁盤(pán) IO 狀況有無(wú)錯(cuò)誤  iostat –En

5.5 數(shù)據(jù)庫(kù)系統(tǒng)

5.5.1 Oracle 數(shù)據(jù)庫(kù)


Oracle 命令列表:

數(shù)據(jù)庫(kù) alert 日志信息――檢查日志中是否有錯(cuò)誤信息提示。

初始化參數(shù) ―― show parameter;

檢查控制文件狀態(tài)―― select * from v$controlfile;

檢查聯(lián)機(jī)日志文件狀態(tài)―― select * from v$logfile;

檢查數(shù)據(jù)文件狀態(tài)―― select * from v$datafile;

檢查表空間使用率――

select  b.file_id  'File  ID',b.tablespace_name

'TabSP_Name',b.bytes/1024/1024 'Size(M)',

(b.bytes-sum(nvl(a.bytes,0))) 'Used',sum(nvl(a.bytes,0)) 'Free',

sum(nvl(a.bytes,0))/(b.bytes)*100 'Free Per%'

from dba_free_space a,dba_data_files b

where a.file_id=b.file_id

group by b.tablespace_name,b.file_id,b.bytes

order by b.file_id;

檢查回滾段使用情況――

SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS

FROM DBA_ROLLBACK_SEGS;

檢查用戶狀態(tài)――

select

username,account_status,default_tablespace,temporary_tablespace,crea

ted from dba_users;

是否存在失效對(duì)象――

select owner, object_name,object_type from dba_objects where status =

‘INVALID’;

是否有異常等待事例 ――

select event,sum(decode(wait_Time,0,0,1)) 'Prev',

sum(decode(wait_Time,0,1,0)) 'Curr',count(*) 'Tot'

from v$session_Wait group by event order by 4;

檢測(cè)連接數(shù)情況 ――

SELECT status,count(*) 'count' FROM v$session GROUP BY status;

用戶使用情況 ―― 向客戶了解使用過(guò)程是否有問(wèn)題。

5.5.2 DB2 數(shù)據(jù)庫(kù)


5.6 中間件系統(tǒng)


5.7 應(yīng)用系統(tǒng)


6. 附錄 1 詞匯表

列出本巡檢方案中專門(mén)術(shù)語(yǔ)的定義、英文縮寫(xiě)詞的原詞組和意義、項(xiàng)目組內(nèi)達(dá)成一致意見(jiàn)的專用詞匯,同時(shí)要求繼承全部的先前過(guò)程中定義過(guò)的詞匯。



備注中注明該詞匯的來(lái)源,或有其他更詳細(xì)的解釋的文檔位置;以及對(duì)該詞匯的其他叫法。

7. 附錄 2 參考資料

本方案同時(shí)查閱了以下 Internet 網(wǎng)址上的技術(shù)標(biāo)準(zhǔn)及信息。

IBM e-Server p-Series 信息中心:

http://publib16.boulder.ibm.com/pseries/en_US/infocenter/base

IBM Redbooks 網(wǎng)站:

http://www.redbooks.ibm.com

HP 公司網(wǎng)站:

http://www.hp.com

SUN 公司網(wǎng)站:

http://www.

CISCO 公司網(wǎng)站:

http://www.

EMC2 公司網(wǎng)站:

http://www.

來(lái)源:http://www.(溫室小花技術(shù)博客)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多