當前位置: 華文頭條 > 推薦

【資訊科技服務執行維護第4部份:數據中心服務要求】GB/T 2019

2024-02-05推薦

本部份為GB/T28827的第4部份。

資訊科技服務執行維護

第4部份:數據中心服務要求

1範圍

GB/T28827的本部份提出了數據中心的執行維護(簡稱:運維)管理框架,規定了數據中心執行維護的物件、交付內容和管理要求。

本部份適用於數據中心執行維護相關方。

2規範性參照檔

下列檔對於本檔的套用是必不可少的。凡是註日期的參照檔,僅註日期的版本適用於本檔。凡是不註日期的參照檔,其最新版本(包括所有的修改單)適用於本檔。

GB/T28827.1-2012資訊科技服務執行維護第1部份:通用要求

GB/T 28827.2-2012資訊科技服務執行維護第2部份:交付規範

GB/T28827.3-2012資訊科技服務執行維護第3部份:應急響應規範

GB/T29264-2012資訊科技服務分類與程式碼

3術語和定義、縮略語

3.1術語和定義

GB/T28827.1-2012、GB/T28827.2-2012、GB/T28827.3-2012和GB/T29264-2012界定的以及下列術語和定義適用於本檔。

3.1.1

數據中心data center

根據特定工藝設計的場地(機房)、機房基礎設施、資訊系統硬體(物理和虛擬資源)、軟體和資訊資源(數據)以及相應的規章制度組成的集合體。

註1:數據中心場地、機房基礎設施可參考GB/T2887-2011。

註2:數據中心場地、機房基礎設施、相關環境和人員的安全要求可參考GB/T9361-2011、GB/T24001-2016以及GB/T28001-2011。

註3:數據中心可以是集中的,也可以是分散的,用於實作資訊科技資源的統一配置和排程。註4:數據中心提供業務系統基礎執行環境以及物理或虛擬的網路、伺服器等計算,輸出套用服務和數據服務。

3.1.2

業務系統 business system

由電腦硬體(物理和虛擬資源)、網路和通訊裝置、電腦軟體、資訊資源、資訊使用者和規章制度組成的以收集(或獲取)、處理、儲存、分配資訊為目的的人機一體化系統。

註1:業務系統的目的是以資訊化手段實作業務過程數位化,支撐企業管理,實作企業價值。

註2:業務系統由一個或多個套用組成。

3.1.3

套用application

業務系統中,使用各種程式語言編寫的應用程式集合。

註:套用在各裝置資源、虛擬資源、平台資源等資源的支撐下,滿足使用者業務需求。

3.1.4

托管服務colocation

為客戶的伺服器、儲存和網路裝置提供空間、電力、制冷、網路接入和物理安全等的服務。

3.1.5

服務級別協定Service level agreement

服務提供商與服務需方之間簽署的記錄服務和約定服務級別的協定。

[GB/T 24405.1-2009,定義2.13]

3.1.6

外部事件externa events

為執行維護物件提供支撐的、協定獲得的、不可控的、非自主運維的服務資源出現異常引發的事件。註:服務資源,例如互聯網、市電、租賃的機房等。

3.1.7

系統事件system events

在執行維護物件範圍內的、自主管理或運維的系統資源服務異常引發的事件。

3.1.8

安全事件Security events

由於安全邊界破壞、安全措施或安全設施失效,造成的安全等級下降或資訊被非法盜用等需方(數據中心)利益被侵害的事件。

3.1.9

虛擬資源virtual resource

透過使用虛擬化技術對數據中心的計算、儲存、網路等物理資源進行虛擬化,並透過管理軟體動態部署,提供給使用者使用的虛擬化集中管理資源。

3.1.10

虛擬機器virtual machine

透過軟體模擬的具有完整硬體系統功能的、執行在一個完全隔離環境中的電腦系統。

3.1.11

宿主機host

執行虛擬化軟體,並為虛擬機器執行提供環境的物理機器。

3.1.12

標準作業規程standard operating procedure;SOP

執行正常操作期間更改基礎設施配置的方法和程式。

3.1.13

維護作業規程maintenanceoperatingprocedure;MOP

規範和明確維護過程中的操作步驟和程式。

3.1.14

應急作業規程emergency operating procedure;EOP

針對可能發生嚴重後果的緊急場景預先建立的作業方法和程式。

3.1.15

機房配置規程site configuration procedures;SCP

機房相關設施在正常工作狀況下的標準設定方法和程式,包括:裝置配置參數,執行設定參數等。

3.1.16

電能使用效率electric energy usage effectiveness;EEUE

為同一時間周期內數據中心總電能消耗量與資訊裝置電能消耗量之比。

3.1.17

ARM伺服器ARM architecture server

采用基於ARM體系架構的處理器作為CPU的伺服器。

3.1.18

x86伺服器 x86 architecture server

采用基於x86體系架構的處理器作為CPU的伺服器。

3.2縮略語

下列縮略語適用於本檔。

ACL:存取控制列表(Access Control List)

ARM:一種RISC微處理器(Acorn RISC Machine)

ATS:自動轉換開關(Automatic Transfer Switch)

BAS:樓宇自動化系統(Building Automation System)

BGP:邊界閘道器協定(Border Gateway Protocol)

CMDB:配置管理資料庫(Configuration Management DataBase)

CPU:中央處理器(Central Processing Unit)

DDC:顯示數據通道(Display Data Channel)

DDoS:分布式拒絕服務(Distributed Denial of Service)

EOP:應急作業規程(Emergency Operating Procedure)

EEUE:電能使用效率(Electric Energy Usage Effectiveness)

HBA:主機匯流排介面卡(Host Bus Adapter)

IaaS:基礎設施即服務(Infrastructure as a Service)

I/O:輸入/輸出(Input/Output)

IOPS:每秒進行讀寫(I/O)操作的次數(Input/Output Operations Per Second)IOT:物聯網(Internet of Things)

IP:互聯網協定(Internet Protocol)

IPS:入侵檢測防禦(Intrusion Prevention System)

IT:資訊科技(Information Technology)

KPI:關鍵績效指標(Key Performance Indicator)

MOP:維護作業規程(Maintenance Operating Procedure)

OLA:營運級別協定(Operational Level Agreement)

OSPF:開放最短路徑優先路由協定(Open Shortest Path First)

PaaS:平台即服務(Platform as a Service)

QOS:服務品質(Quality of Services)

RAID:磁碟陣列(Redundant Arrays of Inexpensive Disks)

RPO:恢復點目標(Recovery Point Objective)

RTO:恢復時間目標(Recovery Time Objective)

SaaS:軟體即服務(Software as a Service)

SAN:儲存區域網路(Storage Area Network)

SCP:機房配置規程(Site Configuration Procedures)

SLA:服務級別協定(Service Level Agreement)

SLI:服務級別指標(Service Level Indicator)

SLO:服務級別目標(Service Level Objective)

SLR:服務級別要求(Service Level Requirement)

SOP:標準作業規程(Standard Operating Procedure)

SQL:結構化查詢語言(Structured Query Language)

STP:生成樹協定(Spanning Tree Protocol)

UC:支撐合約(Underpinning Contract)

UPS:不間斷電源(Uninterrupted Power Supply)

VLAN:虛擬區域網路(Virtual Local Area Network)

VPN:虛擬私人網路(Virtual Private Network)

VRRP:虛擬路由冗余協定(Virtual Router Redundancy Protocol)

WAF:WEB套用防火墻(Web Application Firewall)

4數據中心執行維護物件和內容

4.1概述

數據中心作為機房基礎設施、物理資源、虛擬資源、平台資源、套用和數據的集合體,與組織業務、第三方服務、監管要求、終端及IOT裝置相互關聯,透過相關業務要求、監管要求、服務互動、服務支撐的互動,最終實作服務價值。數據中心業務關系全景圖如圖1所示。

圖1 數據中心業務關系全景圖

為滿足企業業務系統的集中管理,數據中心建設執行應以滿足組織業務為目標,遵守國家相關法律法規,接受相關行業管理部門的指導與監督,實作與第三方服務的互動,透過與終端及IoT裝置的互聯,支撐業務系統的套用。

組織根據業務需求、營運效率、管理水平、風險防範等要求,建設一個或多個、同城或異地的數據中心,或者租用第三方的數據中心服務。

4.2數據中心執行維護物件

4.2.1概述

數據中心執行維護物件包括機房基礎設施、物理資源、虛擬資源、平台資源、套用和數據;同時,組織應根據六類物件的套用模式和服務模式,構建並開展雲服務和業務系統服務的執行維護。數據中心執行維護物件如圖2所示。

圖2 數據中心執行維護物件

4.2.2資源分層視角

按照數據中心執行維護的資源分層視角,執行維護物件分為六個層次,包括:

a)機房基礎設施:

1)電氣系統:包括高低壓供配電系統、電源系統、照明系統、電纜及母線槽、防雷與接地等;

2)通風空調系統:包括空調水系統、空調風系統、機房空調系統等;

3)消防系統:包括消防供配電設施、火災自動報警系統、應急照明與疏散指示系統、應急廣播系統、消防供水設施及消火栓系統、自動滅火系統、防煙排煙系統、防火分隔設施、建築滅火器、空氣(氧氣)呼吸器等;

4)智慧化系統:環境和裝置監控系統、安全防範系統、綜合布纜系統等。

b)物理資源:

1)網路:包括區域網路、廣域網路、互聯網、網路路線(包括專線、、VPN)、路由器、交換機、防火墻、人侵檢測、負載均衡、語音以及通訊傳輸裝置等;

2)伺服器:包含ARM伺服器、x86伺服器、小型機和大型電腦等;

3)儲存:包括磁碟陣列、磁帶庫、光碟庫等。

c)虛擬資源:

1)網路資源:如虛擬網路裝置、虛擬鏈路、虛擬機器網路等;

2)計算資源:如虛擬機器、虛擬機器宿主機等;

3)儲存資源:如虛擬儲存卷、儲存控制器、儲存鏈路等。

d)平台資源:支撐套用系統執行的環境,如作業系統、資料庫、中介軟體等。

e)套用:

1)指實作業務功能的各種軟體,如財務軟體、人力資源管理軟體、辦公自動化軟體等;2)數據中心套用於自身管理的工具軟體,如監控軟體、流程管理軟體、安全分析軟體等。f)數據:

1)業務數據:業務系統采集、分析並儲存的各種資訊載體等;

2)運維數據:數據中心執行維護過程中,產生的各類運維資訊、執行狀態日誌、故障處理文件等資訊;

3)安全數據:在業務執行和運維過程中與安全相關的數據。

4.2.3服務分類視角

按照數據中心執行維護的服務分類視角,數據中心的服務分為托管服務、laaS服務、PaaS服務、SaaS服務和業務系統服務五大類,各類服務對應的維護物件包括:

a)托管服務執行維護物件包括:機房基礎設施以及物理資源;

b)IaaS服務執行維護物件包括:機房基礎設施、物理資源、虛擬資源和平台資源的相關元件;

c)PaaS服務執行維護物件包括:機房基礎設施、物理資源、虛擬資源、平台資源和套用的相關元件;

d)SaaS服務執行維護物件包括:機房基礎設施、物理資源、虛擬資源、平台資源、套用和相關數據資源;

e)業務系統服務執行維護物件包括:向使用者提供端到端的全面服務,涉及以上所列的各個層次。

4.3數據中心執行維護內容

數據中心執行維護內容是指標對執行維護物件的調研評估、例行操作、響應支持和最佳化改善。按GB/T28827.2-2012的規定,數據中心執行維護交付內容包括:

a)調研評估:對執行維護物件的執行狀況進行分析和評估,並提出方案建議。

b)例行操作:

1)監控:對執行維護物件的動態指標、靜態指標、執行狀況和發展趨勢等進行記錄、分析和告警;

2)預防性檢查:對監控記錄、執行條件和執行狀況進行檢查和趨勢分析,發現其脆弱性,以消除或改進;

3)常規作業:對執行維護物件進行的日常維護,包括定期維護、配置備份、數據備份、數據恢復、定期重新開機等活動。

c)響應支持:

1)事件驅動響應:由於外部事件、系統事件或安全事件,導致執行維護物件整體或部份效能下降、功能喪失,而觸發的將執行維護物件恢復到正常狀態的活動;

2)服務請求響應:由於需方提出各類服務請求,引發的需要針對執行維護物件、服務級別做出調整或修改的響應型服務,可能涉及服務級別、服務範圍、技術資源、服務提供方式等的變更;

3)應急響應:依據GB/T28827.3-2012規定的應急響應服務,執行數據中心EOP。d)最佳化改善:

1)適應力改進:為保持執行維護物件在新環境中永續執行而實施的最佳化改進;

2)增強性改進:采取改進措施,增強數據中心的安全性、可用性和可靠性;

3)預防性改進:檢測和糾正維護物件執行過程中潛在的問題或缺陷。

5數據中心執行維護管理要求

5.1數據中心執行維護管理框架

數據中心執行維護管理框架包含觀察、分析、決定和實施四個關鍵環節。數據中心運維過程中,透過觀察運維物件及其相關監管/業務目標、外聯系統環境,分析數據中心運維的具體要求,制定相關的決策方案並開展具體的實施,提升執行維護服務能力。數據中心執行維護管理框架如圖3所示。

圖3 數據中心執行維護管理框架

數據中心運維管理的關鍵內容包括:

a)觀察:目標是透過監控和資訊采集,從環境中收集與數據中心運維有關的資訊,其中:

1)4.2給出了運維物件的定義和範圍;

2)運維物件觀察至少應包括:配置、容量、效能、可用性和故障等;

3)內外部環境觀察至少應包括:業務目標、監管目標,以及外聯系統的執行情況等;4)觀察的工具至少應包括:監控工具、日誌管理工具、流程管理工具等。

b)分析:目標是透過對數據中心執行數據加以綜合評估,以準確了解運維物件發生了什麽問題及如何解決。為了能夠做出更明智的決策,應提出管理要求,並建立管理要求之間的關聯關系。

管理要求的關鍵要素至少應包括:目標管理、服務管控、故障管理、數據保護和數據中心安全管理,其中:

1)5.2給出了目標管理的要求;

2)5.3給出了服務管控的要求;

3)5.4給出了故障管理的要求;

4)5.5給出了數據保護的要求;

5)5.6給出了數據中心安全管理的要求。

c)決定:目標是制定相應的行動措施。根據觀察和分析階段掌握的資訊,考慮實施的效率和風險管理能力,定義和選擇最適合的解決方案。決策可能對運維物件的影響會反饋到運維物件,進行預案評估。

d)實施:目標是執行決定,並檢驗結果。當觀察到實施的結果後,將資訊反饋到運維物件並開始新一輪的「觀察、分析、決定和實施」迴圈。實施的關鍵要素至少應包括:人員、工具、文件和交付內容的標準化和最佳化,其中:

1)數據中心執行維護服務人員建議參見附錄A;

2)數據中心執行維護服務工具建議參見附錄B;

3)數據中心執行維護服務文件範例參見附錄C;

4)數據中心執行維護交付內容建議參見附錄D。

5.2目標管理

5.2.1概述

數據中心執行維護的目標是明確組織業務和運維服務的相關性,為供需雙方運維目標一致性的達成提供支撐,包括但不限於業務關系視覺化、分析運維服務需求、管理服務期望、確定運維服務目標、監控服務品質,以及服務的評估、改善和終止。

5.2.2業務關系視覺化

明確組織業務和數據中心運維服務的對應關系,實作顯性化的展現形式,至少應:

a)在組織戰略的指導下,對業務流程進行管理,確定各項業務流程的業務目標;

b)從業務視角出發,結合組織架構、業務流程和套用功能,進行組織業務與IT服務的關聯性分析;

c)透過配置管理或相關監控工具,獲取和展示業務與資訊系統的關系;d)定義組織業務與運維服務的關系形成服務目錄,並以服務目錄作為業務與IT服務的連線點,有效地協調雙方需求。

5.2.3分析運維服務需求

明確組織業務對運維服務的需求和績效指標,至少應:

a)分析需方組織業務對IT服務的依賴程度;

b)分析需方對各項IT服務的需求,形成服務級別需求;

c)將服務級別需求分拆到技術架構中的各運維物件,形成不同運維物件的運維需求;d)在服務目錄的指導下提出服務級別要求(SLR)和關鍵績效指標(KPI);e)定義服務目錄中的服務內容和服務要求。

5.2.4管理服務期望

評估服務級別需求的合理性,控制供需雙方所期望的服務級別協定(SLA),至少應:

a)綜合評價供方服務能力,如IT服務的可用性、連續性、容量等,形成IT服務能力基線;

b)評估某個IT服務停止時有無替代手段來維持業務的執行;

c)分析供方現有服務能力水平,辨識與需方IT服務需求間的差距;

d)將需方對IT服務的期望值和供方的服務能力進行權衡;

e)協商供需雙方對服務級別的理解,以確定最終或階段性的服務級別需求。

5.2.5確定運維服務目標

分析供方現有服務能力水平,辨識差距,形成確實可行的數據中心運維服務目標,至少應:

a)在服務目錄的指導下,形成服務級別協定,用於評價供方IT服務品質;

b)考慮IT服務所需成本與SLA之間的平衡,SLA的內容包括服務的容量、可用性以及業務維系所需要的服務級別;

c)辨識組織內/外部的其他IT服務資源,確定分包或外包需求,形成營運級別協定(OLA)或支撐合約(UC);

d)提供多種方案,讓需方能夠在權衡各項服務的重要性和成本的基礎上做出選擇,OLA的內容則包括服務台的支持時間以及IT服務緊急停止時向業務部門通報的時間等。

5.2.6監控服務品質

建立服務品質水平的監控機制,監控數據中心運維服務品質水平,至少應:

a)定期監控運維服務過程中SLA所規定服務級別目標的達成狀況;b)建立服務評審機制,對SLA目標的達成狀況等進行定量考核,對業務部門的滿意度等指標進行定性考核;

c)透過有效的手段對運維服務品質進行分析和展現。

5.2.7服務的評估、改善和終止

定期評估服務的品質,根據業務需求的變化及時調整、改善服務能力或終止服務,至少應:a)建立服務評審機制,對SLA目標的達成狀況等進行定量考核,對業務部門的滿意度等指標進行定性考核;

b)根據IT服務評估報告,分析未達成服務目標的原因,制定服務擴充套件與改善計劃;C)制定和協商服務終止方案,就各方職責、中止時間、中止後的替代手段等達成共識;d)制定服務下線計劃,修訂、釋出服務目錄,制定系統報廢計劃,協調相關部門按約定完成人員、資訊科技資源的調配。

5.3服務管控

5.3.1概述

為保證數據中心服務管控,數據中心在執行維護過程中,應建立服務管控的機制和相關管理制度,包括系統可用性管理、容量管理、配置管理、變更和釋出管理、知識管理和供應商管理等,提升執行維護服務能力,滿足SLA規定交付服務內容,並對執行維護服務結果、服務交付過程以及相關管理體系進行監督、測量和分析,並實施改進。

5.3.2系統可用性管理

為保證數據中心的可用性,數據中心在執行維護時,至少應:

a)建立系統可用性的監管機制,對運維物件的執行狀態進行監控和管理;

b)配備適合的管理工具,監視運維物件的可用性指標,並分析其與業務需求的匹配程度;

c)監控可用性指標,根據需求的變化評估系統設定、容量和供應商能力等,以降低業務執行風險,提高運維效率;

d)建立完善的EOP和應急響應管理機制,制定系統允余和備份機制;

e)持續改進運維服務能力,滿足SLA的相關要求。

5.3.3系統容量管理

為滿足業務需求和SLA要求,應對系統容量進行管理,至少應:

a)建立標準化的系統容量管理和資源分配機制,以快速響應業務的需求或及時回收資源;

b)監控IT服務過程中SLA的達成狀況,分析滿足業務需求的程度,並根據系統容量變化進行適時調整;

c)保障系統容量與業務需求的適配,防止因容量不足造成的IT服務中斷;

d)定期對系統容量需求進行評估,保證系統容量能滿足當前及未來的業務需求。

5.3.4配置資訊管理

對軟硬體資產資訊和合約資訊等組成要素進行統一管理,實作對配置資訊的有效管理,建立數據中心承載的業務與執行維護物件間的邏輯關系,至少應:

a)明確資訊系統的管理目標和管理物件,以及關聯關系,包括但不限於:硬體和軟體、設計書、操作手冊等文件、SLA等合約檔,以及運維過程文件等;

b)建立完善的CMDB,以及對應的管理流程機制;

c)采用必要的技術手段和工具對配置資訊收集、管理;

d)持續完善IT服務的配置資訊,並定期進行更新。

5.3.5系統的變更與釋出

透過高效、安全可控的方式,對系統的變更和釋出進行管理,以降低業務的安全風險,至少應:

a)評估系統變更的目的、內容、以及相關的影響,確保變更合規和可控;

b)記錄變更過程中各類操作活動,形成系統變更和釋出日誌;

c)定期對變更過程的記錄和日誌進行歸檔,滿足IT審計的相關要求。

5.3.6知識管理

建立知識管理體系,制定技術操作手冊或實施方案,采取必要的風險規避措施和回退手段,包括但不限於制定裝置及系統的SCP、MOP、SOP,至少應:

a)制定與IT服務目錄對應的技術操作手冊;

b)明確各系統和基礎技術領域的知識管理重點,並定期對技術和知識進行歸納總結;c)建立所有活動及執行維護物件狀態的執行維護檔案,形成服務文件。

5.3.7供應商管理

建立供應商管理體系,對候選供應商進行調查,確認供應商提供的SLA能力,至少應:

a)設立供應商協調管理機制和機構,明確供應商的篩選、能力認證和合作策略,實作供方自身的服務能力和外部服務能力一體化的管理;

b)建立供應商的能力評估機制,對供應商的擅長領域、人員、能力、產品、客戶滿意度等進行評估,如涉及多地區/渠道銷售的供應商需對其定點服務提供能力進行調查,如涉及供應商子公司則需對其子公司負責領域進行調查;

C)建立供應商的資訊共享機制,包括但不限於共享視窗、流程、渠道和溝通機制;

d)對提供雲端運算服務的供應商,應對其營運服務能力進行評估,保證與SLA要求一致。

5.4故障管理

5.4.1概述

為實作數據中心執行維護過程中的故障管理,應建立故障管理的機制,包括但不限於故障分類與分級、故障分析與應對、故障事後評估和故障預防,以降低系統故障對業務的影響。

5.4.2故障分類分級和定級

根據業務對恢復時間的需求、系統故障的影響範圍及持續時間等因素,建立故障的分類分級方法,定義故障類別和響應機制,至少應:

a)建立故障分類分級方法,形成相關的分類分級制度和響應措施;

b)評估不同類別故障對業務的影響範圍,確定故障級別,並上報相關部門備案。

5.4.3故障分析與應對

建立故障分析的流程和機制,配備適當的故障管理分析工具,實作對故障的快速應對,至少應:

a)構建系統故障知識庫,分析不同故障之間的關聯性,以應對不同場景和規模下的系統故障;

b)制定不同系統故障的應對方案,減低系統故障造成的影響。

5.4.4故障事後評估

建立故障處理後的評估機制,評估故障處理的過程和效果,持續改進和最佳化故障知識庫、故障分析和應對流程,至少應:

a)建立故障事後的評估機制和流程,對故障應對措施進行跟蹤,確保故障應對措施的有效性;

b)分析並明確系統故障處置流程中的問題,定期總結分析不同故障現象、原因、影響範圍、處理過程、解決方案和預防措施,持續最佳化故障分析和應對措施;

c)持續改進和最佳化故障管理知識庫,制定針對不同類別故障的專項措施和解決方案。5.4.5故障預防

辨識頻繁出現的系統故障和重大故障,制定有效的規避和預防措施,至少應:

a)開展故障應對的組織保障機制,包括但不限於制度、流程、技術、人員意識等;

b)借助技術手段和工具,分析頻繁出現的故障和重大故障,建立故障預防性機制和措施;

c)形成常見故障響應流程,開展必要的故障應對演練,支撐故障的快速處理;

d)評估故障的應對能力,制定預防性的對策以防止故障的發生。

5.5數據保護

5.5.1概述

構建數據的分級分類機制,建立數據套用、管理、備份和恢復的安全保護管理機制和策略,對數據完整性、保密性、私密性、可信性等進行保護。

5.5.2數據管理

構建數據管理體系,建立數據管理機制、流程和策略,提升數據管理能力,至少應:

a)明確數據管理的角色和職責,明確數據管理相關的職責權利,滿足數據治理層面的要求;

b)定期評估數據管理組織機制、數據管理能力,為數據管理體系提供資源保障;

c)建立數據分類分級機制,構建數據管理的流程和規範,必要時提供平台、工具、系統的支撐;

d)制定符合等保、監管、審計方面的監督機制,監督數據安全管理的績效和符合性;e)制定符合自身管理需求的數據管理目標、方針和策略,並予以及時更新。

5.5.3數據套用安全管控

建立數據套用安全管控措施,對數據套用的安全進行保護,至少應:

a)遵循等保、監管、審計方面的安全要求,保障數據套用過程中安全;

b)構建面向數據全生命周期的套用檢視,辨識不同套用場景下的數據安全和風險;c)建立對數據存取的安全策略,透過相應的技術手段或機制,防止對未授權的重要數據、敏感數據的存取和傳輸;

d)建立有效的管控機制和方法,保障數據套用和服務的安全可控、合規、私密保護。5.5.4數據備份與恢復

制定數據備份與恢復的機制、策略、規範、流程和應急保障措施,對數據儲存的安全進行保護,至少應:

a)建立符合數據分級分類要求的數據備份與恢復機制、策略,滿足不同級別數據的儲存安全保護要求;

b)制定數據備份、恢復規範和操作流程,保障不同數據儲存過程的保密性、完整性、可用性和可追溯性;

c)定期開展數據安全應急演練,保障備份與恢復機制和策略的有效性。

5.6安全管理

5.6.1概述

數據中心在執行維護過程中,應滿足法律法規、行業監管、標準規範的要求,確保資訊資產的保密性、可用性和完整性等,包括但不限於安全管理制度、安全管理崗位、安全狀態監控、安全事件處理、應急預案和演練、安全檢查和最佳化。

5.6.2安全管理制度

建立符合等保、監管、審計相關要求的安全管理制度,對資訊資產、運維人員、事件活動進行管理,至少應:

a)制定符合相應安全級別要求的安全管理制度,構建滿足安全運維的組織機制、崗位角色、人員職責和許可權;

b)建立安全運維管理流程,明確安全運維操作規範和工作流程,支撐安全管理活動的實施;

c)建立安全管理制度體系,包括安全策略、管理制度、操作規程、記錄表單等。

5.6.3安全管理崗位

建立符合安全管理制度的安全管理崗位,對數據中心安全管理的工作進行指導和管理,至少應:

a)設立安全管理的崗位角色,定義崗位職責,配備相應數量的人員。根據安全管理崗位的職責,明確授權許可權,建立相關授權審批程式和審批制度;

b)加強安全管理人員之間、組織內部機構之間以及與外部的專家、組織、外聯單位的合作與溝通,定期進行安全的稽核和檢查,定期開展安全運維人員的安全技能培訓和考核;

c)指定專職專人負責安全管理專職崗位的人員錄用、外部存取人員的許可權管理,離崗人員許可權應及時終止或清除。

5.6.4安全狀態監控

梳理影響系統安全性的關鍵要素,建立數據中心運維物件的安全指標體系並進行監控,至少應:

a)明確安全狀態監控的物件,構建對應的指標體系,透過必要的技術手段和工具,收集安全資訊、辨識威脅和入侵行為;

b)分析資訊資產的安全監控數據,定期形成安全分析報告,包括但不限於狀態分析、影響分析、趨勢分析等。

5.6.5安全事件處理

制定安全事件處理流程的管理規範和制度,保障數據中心業務系統安全穩定地執行,至少應:

a)分析和總結頻繁發生的安全事件和重大安全事件,明確安全事件等級、影響程度以及響應優先級,制定安全事件報告程式;

b)制定安全事件應急預案響應機制、處置流程和處置方案,滿足不同級別的安全事件的要求;

c)定期總結安全事件,總結安全事件處置經驗和方法,形成安全事件處置報告。5.6.6應急預案和演練

制定有效的應急預案,並定期開展演練,至少應:

a)分析安全事件的影響程度和範圍,制定有效的應急預案;

b)定期開展應急預案的演練,保證應急預案的有效性。

5.6.7安全檢查和最佳化

定期開展安全檢查,以滿足等保、監管、審計要求,並持續改進和最佳化,至少應:

a)制定安全檢查的計劃和方案,明確安全檢查的範圍、物件和方法等;

b)定期開展安全檢查的實施,對檢查活動進行記錄,分析潛在的風險和威脅;

c)持續改進安全管理機制,最佳化安全管理的制度、處理流程、應急預案和實施方案。

附錄C

(資料性附錄)

數據中心執行維護服務文件範例

C.1概述

執行維護服務實施中,供方應按要求送出服務文件。服務文件通常分為例行報告、事件報告、故障總結報告、釋出檢查列表和應急預案等。

C.2例行報告

例行報告內容至少包括:

a)報告名稱、報告周期。

b)需方、供方相關資訊。

c)服務綜述。

d)執行維護物件(機房基礎設施、物理資源、虛擬資源、平台資源、套用、數據):

1)服務內容;

2)服務完成情況及下一步工作計劃;

3)服務工作量;

4)SLA目標相關績效表現(響應時間、平均故障修復時間、事件量、問題數、變更實施、故障時間/次數、影響業務的時間/次數等);

5)SLA達成及未達成情況、安全違規及考核實施情況;

6)執行維護物件情況分析、隱患及相關的糾正和預防措施(或建議);

7)重大事件(故障)的分析(對需方業務的影響和成本分析)、糾正和預防措施及落實跟蹤情況,相關變更和釋出的績效;

8)趨勢分析和預警(響應事件量、問題數、故障時間/次數、影響業務的時間/次數);9)基於SLA指標的控制要求,針對收集的數據(如:響應事件量、問題數、故障時間/次數、影響業務的時間/次數等)采用適當的統計分析技術(如統計過程控制圖、蒙地卡羅模擬等),進行數據建模與分析,作為預測和控制的基礎;

10)改進/提升建議。

C.3事件報告

事件報告內容至少包括:

a)報告名稱;

b)需方、供方相關資訊;

C)關鍵字;

d)事件狀態;

e)事件描述;

f)事件的影響程度、範圍;

g)事件級別;

h)事件關閉條件;

i)事件列表及已完成事項;

j)事件處理組織架構;

k)事件發生時間/地點;

1)事件受理時間;

m)恢復時間:

n)事件處理結束時間;

O)事件處理過程時間軸;

p)事件處理情況/工作量;

q)事件發生頻度;

r)事件原因分析及建議;

s)後續改進計劃。

C.4故障總結報告

故障總結報告內容至少包括:

a)報告名稱:

b)需方、供方相關資訊;

c)目前狀態:

d)故障摘要描述;

e)故障原因;

f)觸發條件;

g)解決方案概述;

h)監測;

i)待辦事項;

j)經驗教訓;

k)故障處理過程時間軸。

C.5釋出檢查列表

釋出檢查列表內容至少包括:

a)釋出物件;

b)整體架構;

C)任務清單:

d)流量、容量及效能需求預測;

e)執行環境需求(伺服器、網路、安全等);

f)風險評估及應對措施;

g)過程監控和管理措施;

h)外部依賴條件;

i)釋出計劃。

C.6應急預案

應急預案內容至少包括:

a)應急預案物件;

b)職責分工、資源準備;

c)預警和響應機制;

d)應急處理流程;

e)保障措施;

f)預案評審最佳化。

附錄D

(資料性附錄)

數據中心執行維護交付內容

D.1機房基礎設施

D.1.1執行維護物件

數據中心的機房基礎設施執行維護物件應至少包括:

a)電氣系統:高低壓供配電系統、電源系統、照明系統、電纜及母線槽、防雷與接地等;

b)通風空調系統:空調水系統、空調風系統、機房空調系統等;

c)消防系統:消防供配電設施、火災自動報警系統、應急照明與疏散指示系統、應急廣播系統、消防供水設施及消火栓系統、自動滅火系統、防煙排煙系統、防火分隔設施、建築滅火器、空氣(氧氣)呼吸器等;

d)智慧化系統:環境和裝置監控系統、安全防範系統、綜合布纜等。

D.1.2調研評估

根據數據中心執行維護需求,對機房基礎設施的執行現狀進行調查分析,建立各系統的SCP及MOP、SOP等規範性文件。

D.1.3例行操作

D.1.3.1概述

數據中心的機房基礎設施的例行操作內容應包括監控、預防性檢查和常規作業。D.1.3.2監控

在數據中心執行維護過程中,對機房基礎設施進行監控時,應根據具體的執行維護物件,確定監控內容和指標。

根據數據中心的機房基礎設施配置情況,各類機房基礎設施監控的內容應至少包括表D.1中的規定。註:由於數據中心的規模和套用型別不同,表D.1不規定各類機房基礎設施的監控指標和采集周期。

D.1.3.3預防性檢查

在數據中心執行維護過程中,對機房基礎設施進行預防性檢查時,應根據具體的執行維護物件,確定效能檢查內容和脆弱性檢查內容。

根據數據中心的機房基礎設施配置情況,各類機房基礎設施預防性檢查的內容應至少包括表D.2中的規定。

註:由於數據中心的規模和套用型別不同,表D.2不規定各類機房基礎設施的預防性檢查的指標和檢查周期。

D.1.3.4常規作業

機房基礎設施的常規作業包括基礎類操作、測試類操作和數據類操作:

a)基礎類操作:參照裝置設施的相關手冊和SCP,制定相應的SOP,MOP,並按SOP、MOP規定的程式執行裝置的日常執行、維護和保養等作業;

b)測試類操作:按相應的SOP、MOP對機房基礎設施各系統功能、效能進行測試作業;

c)數據類操作:按相應的SOP、MOP對機房基礎設施執行日誌、記錄等數據進行備份、清除、更新等操作。

在數據中心執行維護過程中,對機房基礎設施進行常規作業時,應根據具體的執行維護物件,確定操作內容和周期。

根據數據中心機房基礎設施配置情況,各類機房基礎設施常規作業的內容應至少包括表D.3中規定。

註:由於數據中心的規模和套用型別不同,表D.3不規定各類機房基礎設施的常規作業的周期。

D.1.4響應支持

D.1.4.1概述

在數據中心執行維護過程中,對機房基礎設施進行響應支持時,應根據不同的執行維護物件和系統執行要求,確定事件驅動響應和服務請求響應的具體服務內容。

D.1.4.2事件驅動響應

針對裝置的軟、硬體故障引起的業務中斷或執行效率無法滿足正常執行要求,而進行的響應服務,包括但不限於:

a)電氣系統:

1)配電系統包括故障排查、投入備用電源回路、關閉非重要回路等;

2)發電機系統包括故障排查、啟動發電機、油料補充、冷卻液更換、電瓶更換等;3)UPS系統包括故障排查、旁路系統、關閉非重要輸出等;

4)直流電源系統包括故障排查、整流模組維修更換等;

5)防雷接地系統包括浪湧保護器復原、更換,接地電阻降阻等。

b)通風空調系統:故障排查、關閉部份裝置以維持數據中心溫濕度指標、關閉新風系統等。

c)消防系統:故障排查、系統啟動、報警聯動、疏散警示等。

d)智慧化系統:

1)BAS系統包括故障排查,檢測元件(裝置)、DDC、執行器更換等,軟硬體升級等;

2)動力環境監控系統包括故障排查,檢測元件(裝置)等更換等,軟硬體升級等;

3)視訊監控系統包括故障排查、攝影機或硬碟更換、檢查告警、數據恢復等;

4)門禁系統包括故障排查、手動開啟或關閉門禁系統、檢查告警或監控記錄等;

5)綜合布纜系統:更換線纜、模組等。

D.1.4.3服務請求響應

根據套用系統執行需要或需方的請求,而進行的響應服務,包括但不限於:

a)電氣系統:

1)配電系統包括增減回路、增減供電型別(如直流、110V),分支回路相位調整等;

2)發電機為指定負載供電等;

3)UPS系統包括旁路操作、為指定負載供電等;

4)防雷接地系統包括新裝置接地等。

b)通風空調系統:調整溫度、濕度參數等,調整新風量等。

c)消防系統:增減裝置、更新聯動邏輯、檢查及提供告警及監控記錄、備份或清除記錄等。

d)機房監控與安全防範系統:

1)BAS系統包括數據中心擴容或改造時增減或調整相應的傳感器、DDC、執行器等、更新點表,調整閾值設定等;在季節轉換時變更工況設定等;

2)動力環境監控系統包括增減或調整檢測元件(裝置)、數據中心擴容或改造時遮蔽告警、連線新的被監控裝置、更新系統EEUE計算公式等;

3)視訊監控系統包括調整攝影機位置、增加攝影機,增加錄像機容量等;

4)門禁系統包括增加、刪減、變更門禁許可權等;

5)綜合布纜系統:鏈路跳接、跳線更換,布線擴容等。

D.1.5最佳化改善

D.1.5.1概述

在數據中心執行維護過程中,對機房基礎設施進行最佳化改善時,應根據數據中心容量的變化情況以及不同的執行維護物件和系統執行要求,確定適應力改進、增強性改進和預防性改進的具體服務內容。

D.1.5.2適應力改進

根據數據中心容量的變化情況以及業務系統及其軟硬體環境的執行要求,對機房基礎設施進行必要的調整,包括但不限於:

a)電氣系統:配電系統根據數據中心容量情況包括更換開關、導線以適配負載容量等,發電機包括調整啟動方式等,調整防雷接地系統等。

b)通風空調系統:調整機組主備執行模式,適應數據中心容量變化;調整溫濕度參數等、調整機組位置、增減新風風量等。

C)智慧化系統:

1)調整BAS系統的控制邏輯,適應數據中心的工況、容量變化;

2)調整環境和裝置監控系統、視訊監控系統和門禁系統,以數據中心容量、防護等級等的變化;

3)調整綜合布纜系統,以適應套用系統的變化。

D.1.5.3增強性改進

根據數據中心容量的變化情況以及業務系統及其軟硬體環境的執行狀況,對機房基礎設施進行調整、擴容或升級,包括但不限於:

a)電氣系統:

1)電力系統增容;

2)配電系統包括增加回路、增加ATS裝置等;

3)UPS系統包括增加主機數量、增加電池數量等;

4)防雷接地系統包括增加冗余引下線、接地裝置,降低接地電阻阻值等。

b)通風空調系統:增減空調機組、改善氣流組織[如增減氣流增強裝置、封閉冷(熱)通道等],增加新風機組、預處理裝置等。

c)消防系統:包括增加檢測元件(裝置)和噴頭數量,更換高效能控制主機。

d)智慧化系統:

1)環境和裝置監控系統:增加檢測元件(裝置)密度、提高檢測元件(裝置)精度或更換功能更完善的檢測元件(裝置)等,升級環境和裝置監控軟硬體等;

2)視訊監控和門禁系統包括增加報警聯動、增加終端數量、增加儲存容量等;

3)綜合布纜系統:路線擴容、提升布線系統級別等;

4)使用物聯網等技術對數據中心中的各類裝置進行全生命周期的管理,包括但不限於裝置狀態、位置、異動資訊等。

D.1.5.4預防性改進

根據業務系統及其軟硬體環境的執行趨勢,對機房基礎設施的脆弱點實施改進作業,包括但不限於:

a)電氣系統:配電系統包括更換開關、更換導線、調整回路等;發電機包括更換電瓶,更換或添加適應環境溫度的防凍液和油料等;防雷接地系統包括焊接點加固、防腐處理等。b)通風空調系統:調整機組位置,調整出回風方式等。

c)消防系統:消防系統包括消防系統預防性改進(按照當地消防管理部門管理要求)。

d)智慧化系統:

1)BAS系統與工單系統的聯動;

2)環境和裝置監控系統與運維管理系統聯動;

3)安防系統的視訊監控和門禁系統與消防系統聯動,安防系統的門禁系統與工單系統、人員定位系統聯動等;

4)綜合布纜系統弱電線纜與強電線纜的物理隔離,線纜整理,鼠患排查等。D.2物理資源

D.2.1執行維護物件

執行維護物件包括:

a)網路:包括區域網路、廣域網路、互聯網、網路路線(包括專線、、路由器、交換機、防火墻、入侵檢測、負載均衡、語音以及通訊傳輸裝置等;

b)伺服器:包含ARM伺服器、x86伺服器、小型機和大型電腦等;

c)儲存:包括磁碟陣列、磁帶庫、光碟庫等。

D.2.2調研評估

透過對物理資源的執行現狀進行分析,根據需方執行維護的需求,提出服務方案。

D.2.3例行操作

D.2.3.1監控

在數據中心執行維護過程中,對物理資源進行監控時,應根據具體的執行維護物件,確定監控內容和指標。

根據數據中心的物理資源配置情況,各類物理資源監控的內容應至少包括表D.4中的規定。註:由於數據中心的規模和套用型別不同,表D.4不規定各類物理資源的監控指標和采集周期。

D.2.3.2預防性檢查

在數據中心執行維護過程中,對物理資源進行預防性檢查時,應根據具體的執行維護物件,確定效能檢查內容和脆弱性檢查內容。

根據數據中心的物理資源配置情況,各類物理資源預防性檢查的內容應至少包括表D.5中的規定。註:由於數據中心的規模和套用型別不同,表D.5不規定各類物理資源的預防性檢查的指標和檢查周期。

D.2.3.3常規作業

在數據中心執行維護過程中,對物理資源進行常規作業時,應根據具體的執行維護物件,確定操作內容和周期。

根據數據中心的物理資源配置情況,各類物理資源常規作業的內容應至少包括表D.6中的規定。註:由於數據中心的規模和套用型別不同,表D.6不規定各類物理資源的常規作業的周期。

D.2.4響應支持

D.2.4.1概述

在數據中心執行維護過程中,對物理資源進行響應支持時,應根據不同的執行維護物件和系統執行要求,確定事件驅動響應和服務請求響應的具體服務內容。

D.2.4.2事件驅動響應

針對物理資源的故障引起的業務中斷或執行效率無法滿足正常執行要求,而進行的響應服務,包括但不限於:

a)網路事件驅動響應:

1)故障定位;

2)停止、啟動行程;

3)中斷、連通網路連線;

4)關閉、啟動埠;

5)網路備件更換;

6)更改、恢復配置。

b)伺服器事件驅動響應:

1)伺服器重新開機;

2)更換故障部件,包括主機板、電源、CPU、記憶體、硬碟等;

3)伺服器關鍵部件微碼升級;

4)伺服器硬碟RAID配置修復。

(c)儲存事件驅動響應:

1)儲存重新開機;

2)配置檔恢復;

3)更換故障部件,包括電源、硬碟等;

4)微碼升級;

5)儲存管理軟體修補程式安裝;

6)數據修復。

D.2.4.3服務請求響應

根據套用系統執行需要或需方的請求,而進行的響應服務,包括但不限於:

a)網路服務請求響應:

1)增加、降低網路接入的數量或速度;

2)更改網路裝置配置;

3)啟動、關閉埠或服務;

4)更換、更新或升級裝置硬體或軟體。

b)伺服器服務請求響應:

1)伺服器裝置搬遷;

2)伺服器裝置停機演練;

3)伺服器裝置清潔維護等;

4)伺服器硬體擴容;

5)集群環境搭建和切換演練。、

c)儲存服務請求響應:

1)儲存裝置搬遷;

2)儲存裝置停機演練;

3)儲存裝置清潔維護;

4)儲存硬碟空間擴容;

5)儲存結構調整;

6)新增主機分配儲存空間;

7)主機端多路徑軟體的安裝配置。

D.2.5最佳化改善

D.2.5.1概述

在數據中心執行維護過程中,對物理資源進行最佳化改善時,應根據不同的執行維護物件和系統執行要求,確定適應力改進、增強性改進和預防性改進的具體服務內容。

D.2.5.2適應力改進

根據業務系統及其軟硬體環境的執行要求,對物理資源進行必要的調整,包括但不限於:

a)網路適應力改進:

1)路由策略調整;

2)裝置或鏈路負載調整;

3)網路安全加固;

4)網路敏感數據加密;

5)監控物件覆蓋範圍調整;

6)局部交換最佳化;

7)局部完余最佳化。

b)伺服器適應力改進:

1)伺服器硬碟RAID配置調整;

2)伺服器網路、光纖鏈路冗余調整;

3)伺服器電源供電接入冗余調整。

c)儲存適應力改進:

1)儲存裝置讀寫快取(Cache)比例調整;

2)儲存裝置RAID保護級別調整;

3)儲存裝置新增硬碟,包括新增磁盤擴充套件櫃;

4)儲存裝置邏輯盤的容量調整;

5)儲存裝置分配主機的調整;

6)磁帶池的配置調整;

7)光纖交換機儲存網路區域(ZONE)規劃調整。

D.2.5.3增強性改進

根據業務系統及其軟硬體環境的執行狀況,對物理資源進行調整、擴容或升級,包括但不限於:a)網路增強性改進:

1)硬體容量變化,如網路裝置硬體、軟體升級、頻寬升級等;

2)整體網路架構變動;

3)安全裝置特征庫升級;

4)網路架構容量變化,如網路子系統的增減等;

5)系統功能變化,如新增功能區、新增安全系統、新增審計系統等;

6)路由協定套用及部署調整;

7)整體安全策略收緊;

8)交換最佳化;

9)冗余最佳化。

b)伺服器增強性改進:

1)為本伺服器從儲存系統上分配更大空間;

2)伺服器CPU個數增加;

3)伺服器記憶體容量增加;

4)伺服器磁盤空間擴容;

5)伺服器網卡和HBA介面卡增加等。

c)儲存增強性改進:

1)儲存裝置控制器、硬碟等部件的微碼升級;

2)儲存裝置新增硬碟擴容,包括新增磁盤擴充套件櫃;

3)儲存裝置快取(Cache)容量增加;

4)磁帶池的容量調整,包括新增磁帶;

5)磁帶驅動器的新增;

6)儲存裝置光纖模組的升級;

7)光纖交換機的光纖模組升級;

8)光纖交換機的埠啟用擴容,包括新增光模組;

9)儲存裝置管理軟體的版本升級。

D.2.5.4預防性改進

根據業務系統及其軟硬體環境的執行趨勢,對物理資源的脆弱點實施改進作業,包括但不限於:

a)網路預防性改進:

1)配置參數最佳化,例如關閉不必要的服務、開啟缺省的增強功能、加快三層網路路由收斂速度、加快二層網路生成樹收斂速度等;

2)網路安全最佳化,例如:添加防火墻、IPS、WAF、DDoS等安全裝置;

3)提高軟體配置命令可讀性。

b)伺服器預防性改進:

1)檢查伺服器硬碟RAID配置,及時修復或更換故障硬碟;

2)增加伺服器網卡、光纖卡以及鏈路冗余情況;

3)增加伺服器電源供電模組冗余。

c)儲存預防性改進:

1)收集磁盤空間的使用情況,及時清理垃圾數據或增加儲存裝置容量;

2)檢視儲存控制器電池的使用情況,及時更換新的電池;

3)檢查儲存裝置的電源是否老化,及時更換新的電源;

4)檢視磁帶驅動器的使用情況,及時清洗磁頭;

5)檢視儲存裝置的讀寫效能,適時調整儲存控制器的快取(Cache)容量。

D.3虛擬資源

D.3.1執行維護物件

執行維護物件至少應包括:

a)網路資源:如虛擬網卡、虛擬網路裝置、虛擬鏈路、虛擬機器網路等;

b)計算資源:如虛擬機器、虛擬機器宿主機等;

c)儲存資源:如虛擬儲存卷、服務控制器、儲存鏈路等。

D.3.2調研評估

透過對虛擬資源的執行現狀進行分析,根據需方執行維護的需求,提出服務方案。D.3.3例行操作

D.3.3.1監控

在數據中心執行維護過程中,對虛擬資源進行監控時,應根據具體的物件,確定監控內容和指標。根據數據中心的虛擬資源配置情況,各類虛擬資源監控的內容應至少包括表D.7中的規定。註:由於數據中心的規模和套用型別不同,表D.7不規定各類虛擬資源的監控指標和采集周期。

D.3.3.2預防性檢查

在數據中心執行維護過程中,對虛擬資源進行預防性檢查時,應根據具體的執行維護物件,確定效能檢查內容和脆弱性檢查內容。

根據數據中心的虛擬資源配置情況,各類虛擬資源預防性檢查的內容應至少包括表D.8中的規定。註:由於數據中心的規模和套用型別不同,表D.8不規定各類物理資源的預防性檢查的指標和檢查周期。

D.3.3.3常規作業

在數據中心執行維護過程中,對虛擬資源進行常規作業時,應根據具體的執行維護物件,確定操作內容和周期。

根據數據中心的虛擬資源配置情況,各類虛擬資源常規作業的內容應至少包括表D.9中的規定。註:由於數據中心的規模和套用型別不同,表D.9不規定各類虛擬資源的常規作業的周期。

D.3.4響應支持

D.3.4.1概述

在數據中心執行維護過程中,對虛擬資源進行響應支持時,應根據不同的執行維護物件和系統執行要求,確定事件驅動響應和服務請求響應的具體服務內容。

D.3.4.2事件驅動響應

針對虛擬資源及所依賴的硬體故障引起的業務中斷或執行效率無法滿足正常執行要求,而進行的響應服務,包括但不限於:

a)故障定位;

b)虛擬資源重新調配、緊急遷移、緊急擴容;

c)解決虛擬資源所依賴的物理資源故障和缺陷,包括:伺服器、網路及網路裝置、虛擬網路控制器、儲存、仲裁控制點(磁盤、光纖鏈路、伺服器等)等;

d)虛擬資源緊急操作,如更換、中斷、連通網路連線,關閉、啟動埠,更改、恢復配置,停止及啟動行程、重新開機等。

D.3.4.3服務請求響應

根據套用系統執行需要或需方的請求,而進行的響應服務,包括但不限於:

a)虛擬機器、配置資訊、數據的備份與恢復;

b)虛擬機器建立、遷移、回收、變更;

c)虛擬資源的容災、高可用配置、計劃實施與演練;

d)虛擬網路控制器配置變更下發;

e)數據統一備份;

f)數據存取效能最佳化;

g)數據線上遷移與分級儲存;

h)新增主機分配儲存空間;

i)現有主機儲存空間調整;

j)主機端多路徑軟體的安裝配置;

k)虛擬資源的擴容、調配、變更;

1)增加、降低虛擬網路資源網路接入數量或速率;

m)更改虛擬網路資源配置;

n)啟動、關閉埠或服務;

o)更換、更新或升級虛擬網路資源硬體或軟體。

D.3.5最佳化改善

D.3.5.1概述

在數據中心執行維護過程中,對虛擬資源進行最佳化改善時,應根據不同的執行維護物件和系統執行要求,確定適應力改進、增強性改進和預防性改進的具體服務內容。

D.3.5.2適應力改進

根據業務系統及其軟硬體環境的執行要求,對虛擬資源進行必要的調整,包括但不限於:

a)虛擬網路裝置或鏈路負載調整;

b)虛擬網路安全策略調整;

c)虛擬網路監控物件覆蓋範圍調整;

d)虛擬網路路由策略調整;

e)虛擬網路交換及冗余最佳化;

f)虛擬網路資源調配;

g)虛擬網路控制器配置最佳化調整;

h)虛擬機器計算資源CPU、記憶體容量、硬碟容量、網路的調整;

i)虛擬機器計算資源遷移;

j)虛擬化計算資源排程的演算法;

k)虛擬儲存服務控制器前後端網路(SAN或IP)埠吞吐速率的調整;1)根據數據生命周期,進行儲存資源分層調整;

m)數據儲存平衡演算法調整;

n)虛擬儲存卷保留份數調整;

o)虛擬儲存卷映像復制級別調整。

D.3.5.3增強性改進

根據業務系統及其軟硬體環境的執行狀況,對虛擬資源進行調整、擴容或升級,包括但不限於:

a)虛擬網路資源調整,如CPU、記憶體、埠的調配、擴容回收;

b)虛擬網路資源網路架構變動;

c)虛擬網路架構容量變化,如網路子系統的增減等;

d)虛擬網路系統功能變化,如新增安全系統、新增審計系統等;

e)虛擬網路路由協定套用及部署調整;

f)虛擬網路整體安全策略收緊;

g)虛擬網路資源允余最佳化;

h)虛擬網路控制器軟體版本升級;

i)虛擬計算資源宿主機伺服器和虛擬機器計算能力擴容;

j)虛擬計算資源宿主機伺服器和虛擬機器記憶體擴容;

k)虛擬計算資源宿主機伺服器和虛擬機器網路吞吐能力擴容;

1)虛擬計算資源高可用性增強與演練;

m)虛擬計算資源容錯機制增強與演練;

n)虛擬計算資源備份恢復測試;

O)虛擬儲存服務控制器節點數量增加;

p)虛擬儲存服務控制器記憶體容量增加;

q)虛擬儲存服務控制器CPU效能增強;

r)虛擬儲存服務控制器前後端網路(SAN或IP)埠增加;

s)虛擬儲存服務控制器後端分布式物理儲存的快取(Cache)、容量等增加;t)虛擬儲存服務控制器微碼升級;

u)安全裝置特征庫升級;

v)儲存虛擬化軟體升級。

D.3.5.4預防性改進

根據業務系統及其軟硬體環境的執行趨勢,對虛擬資源的脆弱點實施改進作業,包括但不限於:

a)虛擬網路配置參數最佳化,例如虛擬網路資源的VLAN、QOS、ACL、頻寬等;

b)虛擬網路部署路由策略情況下端到端選路變化、埠流量變化、路由條目變化;

c)根據系統監控得到的資訊替換可能存在問題的記憶體,CPU,硬碟,網路裝置等;

d)根據系統的壓力增長趨勢主動對物理伺服器的數量進行必要的擴容;

e)根據系統的發展趨勢對網路系統采取必要的擴容;

f)收集儲存資源空間的使用情況,及時清理垃圾數據或增加儲存資源的容量;

g)監控服務控制器的負載情況,必要時增加硬體數量,或提高硬體規格;

h)監控服務控制器的硬體出錯率,替換存在問題的硬體;

i)監控服務控制器後端分布式物理儲存的硬體出錯率,替換存在問題的硬體;

j)監控仲裁控制點(磁盤、光纖鏈路、伺服器等)的執行情況;

k)服務控制器微碼升級;

l)網路安全最佳化,例如:添加防火墻、IPS、WAF、DDoS等安全裝置;m)儲存虛擬化軟體升級。

D.4平台資源

D.4.1執行維護物件

執行維護物件包括作業系統、資料庫、中介軟體。

D.4.2調研評估

透過對平台資源的執行現狀進行分析,根據需方執行維護的需求,提出服務方案。D.4.3例行操作

D.4.3.1監控

在數據中心執行維護過程中,對平台資源進行監控時,應根據具體的執行維護物件,確定監控內容和指標。

根據數據中心的平台資源配置情況,各類平台資源監控的內容應至少包括表D.10中的規定。註:由於數據中心的規模和套用型別不同,表D.10不規定各類平台資源的監控指標和采集周期。

D.4.3.2預防性檢查

在數據中心執行維護過程中,對平台資源進行預防性檢查時,應根據具體的執行維護物件,確定效能檢查內容和脆弱性檢查內容。

根據數據中心的平台資源配置情況,各類平台資源預防性檢查的內容應至少包括表D.11中的規定。

D.4.3.3常規作業

在數據中心執行維護過程中,對平台資源進行常規作業時,應根據具體的執行維護物件,確定操作內容和周期。

根據數據中心的平台資源配置情況,各類平台資源常規作業的內容應至少包括表D.12中的規定。註:由於數據中心的規模和套用型別不同,表D.12不規定各類平台資源的常規作業的周期。

D.4.4響應支持

D.4.4.1概述

在數據中心執行維護過程中,對平台資源進行響應支持時,應根據不同的執行維護物件和系統執行要求,確定事件驅動響應和服務請求響應的具體服務內容。

D.4.4.2事件驅動響應

針對裝置的軟、硬體故障、誤操作等引起的業務中斷或執行效率無法滿足正常執行要求,而進行的響應服務。包括但不限於:

a)作業系統事件驅動響應:

1)作業系統崩潰;

2)作業系統CPU、記憶體等資源耗盡;

3)作業系統服務行程無效;

4)作業系統檔案系統空間不夠;

5)作業系統介面無法通訊;

6)作業系統無法辨識外接儲存空間。

b)資料庫事件驅動響應:

1)資料庫宏機、鎖死;

2)數據檔壞塊修復;

3)資料庫重新開機;

4)資料庫監聽埠沖突;

5)資料庫備份恢復;

6)資料庫解鎖。

c)中介軟體事件響應驅動:

1)服務行程假死;

2)套用服務掉線或重新開機;

3)配置檔恢復;

4)守護服務調整。

D.4.4.3服務請求響應

根據套用系統執行需要或需方的請求,而進行的響應服務。包括但不限於:

a)作業系統服務請求響應:

1)作業系統版本升級;

2)作業系統當機修復;

3)作業系統檔案系統損壞修復;

4)作業系統檔案系統空間擴容:

5)作業系統IP地址修改;

6)作業系統參數調整;

7)作業系統日誌清理。

b)資料庫服務請求響應:

1)資料庫版本升級;

2)資料庫災難恢復;

3)數據清理和維護。

c)中介軟體服務請求響應:

1)中介軟體新增套用服務;

2)中介軟體參數調整;

3)中介軟體軟體版本升級。

D.4.5最佳化改善

D.4.5.1概述

在數據中心執行維護過程中,對平台資源進行最佳化改善時,應根據不同的執行維護物件和系統執行要求,確定適應力改進、增強性改進和預防性改進的具體服務內容。

D.4.5.2適應力改進

根據業務系統及其軟硬體環境的執行要求,對平台資源進行必要的調整,包括但不限於:a)作業系統適應力改進:

1)作業系統交換區容量調整;

2)作業系統內核參數調整;

3)作業系統檔案系統使用空間調整劃分。

b)資料庫適應力改進:

1)資料庫索引調整;

2)資料庫執行SQL計劃調整;

3)數據表參數調整;

4)資料庫物件的調整;

5)主機作業系統內核參數調整;

6)資料庫參數調整;

7)臨時表空間、使用者表空間調整;

8)資料庫物理部署的調整(遷移至新伺服器或者資料庫儲存陣列調整);

9)調整資料庫備份策略。

c)中介軟體適應力改進:

1)中介軟體參數配置最佳化;

2)資料庫連線參數調整;

3)連線池參數調整;

4)相關作業系統參數調整。

D.4.5.3增強性改進

根據業務系統及其軟硬體環境的執行狀況,對平台資源進行調整、擴容或升級,包括但不限於:a)作業系統增強性改進:

1)作業系統版本升級;

2)作業系統記憶體擴容;

3)作業系統磁盤空間擴容;

4)作業系統增加網卡、光纖卡數量;

5)作業系統參數調優。

b)資料庫增強性改進:

1)資料庫版本升級、打修補程式;

2)由於主機CPU個數、記憶體容量增加調整資料庫相應的參數;

3)由於主機儲存的增加調整資料庫表空間容量;

4)資料庫安全備份架構構建以提高可用性;

5)資料庫調優等。

c)中介軟體增強性改進:

1)中介軟體版本升級、打修補程式;

2)由於主機CPU個數、記憶體容量增加調整中介軟體相應的參數。

D.4.5.4預防性改進

根據業務系統及其軟硬體環境的執行趨勢,對平台資源的脆弱點實施改進作業,包括但不限於:a)作業系統預防性改進:

I)作業系統刪除垃圾數據,釋放數據空間;

2)作業系統檔案系統擴容;

3)作業系統增加網卡、光纖卡冗余;

4)作業系統使用者許可權合理分配;

5)作業系統行程伺服端口調整。

b)資料庫預防性改進:

1)增加資料庫表空間、數據檔空間使用範圍;

2)對資料庫存在的無效物件處理;

3)資料庫使用者的許可權合理分配或收回。

c)中介軟體預防性改進:

1)刪除臨時檔,釋放數據空間;

2)監控主要參數以及時調優;

3)套用備份策略調整;

4)定期備份。

D.5套用

D.5.1執行維護物件

執行維護物件是套用,包括業務軟體和管理軟體等。

D.5.2調研評估

透過對套用和相關資源的執行現狀進行分析,根據需方執行維護的需求,提出服務方案。

D.5.3例行操作

D.5.3.1監控

在數據中心執行維護過程中,對套用及相關資源進行監控時,應根據具體的執行維護物件,確定監控內容和指標。

要保障數據中心套用的正常執行,需要平台資源的配置和滿足套用要求,同時需對套用系統本身的資源和業務進行監控,監控內容包括不限於:

a)平台資源監控:作業系統CPU、記憶體、磁盤、網路頻寬、埠、I/O、檔案系統等,資料庫庫表空間、連線數、檔數、使用者數,中介軟體等,參見D.4平台資源;

b)套用層資源監控:參見表D.13;

c)套用層業務監控:透過日誌和日誌監控分析對套用層業務執行情況進行監控。註:由於數據中心的規模和套用型別不同,表D.13不規定各類套用的監控指標和采集周期。

D.5.3.2預防性檢查

在數據中心執行維護過程中,對套用進行預防性檢查時,應根據具體的執行維護物件,確定效能檢查內容和脆弱性檢查內容。

根據數據中心的套用配置情況,各類套用預防性檢查的內容應至少包括表D.14中的規定。註:由於數據中心的規模和套用型別不同,表D.14不規定各類套用的預防性檢查的指標和檢查周期。

D.5.3.3常規作業

在數據中心執行維護過程中,對套用進行常規作業時,應根據具體的執行維護物件,確定操作內容和周期。

根據數據中心的套用配置情況,各類套用常規作業的內容應至少包括表D.15中的規定。註:由於數據中心的規模和套用型別不同,表D.15不規定各類套用的常規作業的周期。

D.5.4響應支持

D.5.4.1概述

在數據中心執行維護過程中,對套用進行響應支持時,應根據不同的執行維護物件和系統執行要求,確定事件驅動響應和服務請求響應的具體服務內容。

D.5.4.2事件驅動響應

針對套用故障而進行的響應服務。包括但不限於:

a)套用級啟停;

b)系統級啟停等。

D.5.4.3服務請求響應

根據套用系統執行需要或需方的請求,進行及時響應和處理。例如:

a)按服務請求指示進行使用者增加;

b)口令修改;

C)參數調整等。

D.5.5最佳化改善

在數據中心執行維護過程中,對套用進行最佳化改善時,應根據不同的執行維護物件和系統執行要求,確定具體服務內容。

套用的最佳化改善服務包括但不限於:

a)套用訊息佇列、共享記憶體最佳化;

b)套用服務能力最佳化,例如:套用行程數、套用執行緒數的最佳化;

c)套用日誌級別及日誌空間的調整;

d)套用版本及配置的升級、打修補程式;

e)日誌程式碼最佳化升級、日誌監控分析程式碼最佳化升級等。

註:D.5.5中套用的最佳化改善服務通常指在軟體執行中對軟體有關效能、維護參數調整,對於套用自身功能增加、變動等引起的最佳化改善活動不在範圍內,參見GB/T20157-2006。

D.6數據

D.6.1執行維護物件和活動

數據執行維護物件包括:

a)業務數據:業務系統采集、分析並儲存的各種資訊載體等;

b)運維數據:數據中心執行維護過程中,產生的各類運維資訊、執行狀態和日誌、故障處理過程等資訊;c)安全數據:在業務和運維過程中與安全相關的數據。

D.6.2調研評估

按D.1.2、D.2.2、D.3.2、D.4.2、D.5.2給出的要求。

D.6.3例行操作

D.6.3.1監控

在數據中心執行維護過程中,對數據資源進行監控時,應根據具體的執行維護物件,確定監控內容和指標。

根據數據中心的平台資源配置情況,各類數據資源監控的內容應至少包括表D.16中的規定。註:由於數據中心的規模和套用型別不同,表D.16不規定各類數據資源的監控指標和采集周期。

D.6.3.2預防性檢查

在數據中心執行維護過程中,對數據資源進行預防性檢查時,應根據具體的執行維護物件,確定效能檢查內容和脆弱性檢查內容。

根據數據中心的平台資源配置情況,各類數據資源預防性檢查的內容應至少包括表D.17中的規定。

註:由於數據中心的規模和套用型別不同,表D.17不規定各類數據資源的預防性檢查的指標和檢查周期。

D.6.3.3常規作業

在數據中心執行維護過程中,對數據資源進行常規作業時,應根據具體的執行維護物件,確定操作內容和周期。

根據數據中心的數據資源配置情況,各類數據資源常規作業的內容應至少包括表D.18中的規定。註:由於數據中心的規模和套用型別不同,表D.18不規定各類數據資源的常規作業的周期。

D.6.4響應支持

按D.1.4、D.2.4、D.3.4、D.4.4、D.5.4給出的要求。

D.6.5最佳化改善

按D.1.5、D.2.5、D.3.5、D.4.5、D.5.5給出的要求。

在數據中心執行維護過程中,應根據不同的業務數據特性和套用範圍,對數據進行梳理、最佳化,並提出改善建議,對數據的最佳化改善往往會涉及對套用的變更。

數據的最佳化改善服務包括但不限於:

a)數據儲存方案;

b)數據重構方案。