本部分为GB/T28827的第4部分。
信息技术服务运行维护
第4部分:数据中心服务要求
1范围
GB/T28827的本部分提出了数据中心的运行维护(简称:运维)管理框架,规定了数据中心运行维护的对象、交付内容和管理要求。
本部分适用于数据中心运行维护相关方。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T28827.1-2012信息技术服务运行维护第1部分:通用要求
GB/T 28827.2-2012信息技术服务运行维护第2部分:交付规范
GB/T28827.3-2012信息技术服务运行维护第3部分:应急响应规范
GB/T29264-2012信息技术服务分类与代码
3术语和定义、缩略语
3.1术语和定义
GB/T28827.1-2012、GB/T28827.2-2012、GB/T28827.3-2012和GB/T29264-2012界定的以及下列术语和定义适用于本文件。
3.1.1
数据中心data center
根据特定工艺设计的场地(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、软件和信息资源(数据)以及相应的规章制度组成的集合体。
注1:数据中心场地、机房基础设施可参考GB/T2887-2011。
注2:数据中心场地、机房基础设施、相关环境和人员的安全要求可参考GB/T9361-2011、GB/T24001-2016以及GB/T28001-2011。
注3:数据中心可以是集中的,也可以是分散的,用于实现信息技术资源的统一配置和调度。注4:数据中心提供业务系统基础运行环境以及物理或虚拟的网络、服务器等计算,输出应用服务和数据服务。
3.1.2
业务系统 business system
由计算机硬件(物理和虚拟资源)、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以收集(或获取)、处理、存储、分配信息为目的的人机一体化系统。
注1:业务系统的目的是以信息化手段实现业务过程数字化,支撑企业管理,实现企业价值。
注2:业务系统由一个或多个应用组成。
3.1.3
应用application
业务系统中,使用各种程序语言编写的应用程序集合。
注:应用在各设备资源、虚拟资源、平台资源等资源的支撑下,满足用户业务需求。
3.1.4
托管服务colocation
为客户的服务器、存储和网络设备提供空间、电力、制冷、网络接入和物理安全等的服务。
3.1.5
服务级别协议Service level agreement
服务提供商与服务需方之间签署的记录服务和约定服务级别的协议。
[GB/T 24405.1-2009,定义2.13]
3.1.6
外部事件externa events
为运行维护对象提供支撑的、协议获得的、不可控的、非自主运维的服务资源出现异常引发的事件。注:服务资源,例如互联网、市电、租赁的机房等。
3.1.7
系统事件system events
在运行维护对象范围内的、自主管理或运维的系统资源服务异常引发的事件。
3.1.8
安全事件Security events
由于安全边界破坏、安全措施或安全设施失效,造成的安全等级下降或信息被非法盗用等需方(数据中心)利益被侵害的事件。
3.1.9
虚拟资源virtual resource
通过使用虚拟化技术对数据中心的计算、存储、网络等物理资源进行虚拟化,并通过管理软件动态部署,提供给用户使用的虚拟化集中管理资源。
3.1.10
虚拟机virtual machine
通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的计算机系统。
3.1.11
宿主机host
运行虚拟化软件,并为虚拟机运行提供环境的物理机器。
3.1.12
标准作业规程standard operating procedure;SOP
执行正常操作期间更改基础设施配置的方法和程序。
3.1.13
维护作业规程maintenanceoperatingprocedure;MOP
规范和明确维护过程中的操作步骤和程序。
3.1.14
应急作业规程emergency operating procedure;EOP
针对可能发生严重后果的紧急场景预先建立的作业方法和程序。
3.1.15
机房配置规程site configuration procedures;SCP
机房相关设施在正常工作状况下的标准设置方法和程序,包括:设备配置参数,运行设置参数等。
3.1.16
电能使用效率electric energy usage effectiveness;EEUE
为同一时间周期内数据中心总电能消耗量与信息设备电能消耗量之比。
3.1.17
ARM服务器ARM architecture server
采用基于ARM体系架构的处理器作为CPU的服务器。
3.1.18
x86服务器 x86 architecture server
采用基于x86体系架构的处理器作为CPU的服务器。
3.2缩略语
下列缩略语适用于本文件。
ACL:访问控制列表(Access Control List)
ARM:一种RISC微处理器(Acorn RISC Machine)
ATS:自动转换开关(Automatic Transfer Switch)
BAS:楼宇自动化系统(Building Automation System)
BGP:边界网关协议(Border Gateway Protocol)
CMDB:配置管理数据库(Configuration Management DataBase)
CPU:中央处理器(Central Processing Unit)
DDC:显示数据通道(Display Data Channel)
DDoS:分布式拒绝服务(Distributed Denial of Service)
EOP:应急作业规程(Emergency Operating Procedure)
EEUE:电能使用效率(Electric Energy Usage Effectiveness)
HBA:主机总线适配器(Host Bus Adapter)
IaaS:基础设施即服务(Infrastructure as a Service)
I/O:输入/输出(Input/Output)
IOPS:每秒进行读写(I/O)操作的次数(Input/Output Operations Per Second)IOT:物联网(Internet of Things)
IP:互联网协议(Internet Protocol)
IPS:入侵检测防御(Intrusion Prevention System)
IT:信息技术(Information Technology)
KPI:关键绩效指标(Key Performance Indicator)
MOP:维护作业规程(Maintenance Operating Procedure)
OLA:运营级别协议(Operational Level Agreement)
OSPF:开放最短路径优先路由协议(Open Shortest Path First)
PaaS:平台即服务(Platform as a Service)
QOS:服务质量(Quality of Services)
RAID:磁盘阵列(Redundant Arrays of Inexpensive Disks)
RPO:恢复点目标(Recovery Point Objective)
RTO:恢复时间目标(Recovery Time Objective)
SaaS:软件即服务(Software as a Service)
SAN:存储区域网络(Storage Area Network)
SCP:机房配置规程(Site Configuration Procedures)
SLA:服务级别协议(Service Level Agreement)
SLI:服务级别指标(Service Level Indicator)
SLO:服务级别目标(Service Level Objective)
SLR:服务级别要求(Service Level Requirement)
SOP:标准作业规程(Standard Operating Procedure)
SQL:结构化查询语言(Structured Query Language)
STP:生成树协议(Spanning Tree Protocol)
UC:支撑合同(Underpinning Contract)
UPS:不间断电源(Uninterrupted Power Supply)
VLAN:虚拟局域网(Virtual Local Area Network)
VPN:虚拟专用网(Virtual Private Network)
VRRP:虚拟路由冗余协议(Virtual Router Redundancy Protocol)
WAF:WEB应用防火墙(Web Application Firewall)
4数据中心运行维护对象和内容
4.1概述
数据中心作为机房基础设施、物理资源、虚拟资源、平台资源、应用和数据的集合体,与组织业务、第三方服务、监管要求、终端及IOT设备相互关联,通过相关业务要求、监管要求、服务交互、服务支撑的互动,最终实现服务价值。数据中心业务关系全景图如图1所示。
图1 数据中心业务关系全景图
为满足企业业务系统的集中管理,数据中心建设运行应以满足组织业务为目标,遵守国家相关法律法规,接受相关行业管理部门的指导与监督,实现与第三方服务的互动,通过与终端及IoT设备的互联,支撑业务系统的应用。
组织根据业务需求、运营效率、管理水平、风险防范等要求,建设一个或多个、同城或异地的数据中心,或者租用第三方的数据中心服务。
4.2数据中心运行维护对象
4.2.1概述
数据中心运行维护对象包括机房基础设施、物理资源、虚拟资源、平台资源、应用和数据;同时,组织应根据六类对象的应用模式和服务模式,构建并开展云服务和业务系统服务的运行维护。数据中心运行维护对象如图2所示。
图2 数据中心运行维护对象
4.2.2资源分层视角
按照数据中心运行维护的资源分层视角,运行维护对象分为六个层次,包括:
a)机房基础设施:
1)电气系统:包括高低压供配电系统、电源系统、照明系统、电缆及母线槽、防雷与接地等;
2)通风空调系统:包括空调水系统、空调风系统、机房空调系统等;
3)消防系统:包括消防供配电设施、火灾自动报警系统、应急照明与疏散指示系统、应急广播系统、消防供水设施及消火栓系统、自动灭火系统、防烟排烟系统、防火分隔设施、建筑灭火器、空气(氧气)呼吸器等;
4)智能化系统:环境和设备监控系统、安全防范系统、综合布缆系统等。
b)物理资源:
1)网络:包括局域网、广域网、互联网、网络线路(包括专线、、VPN)、路由器、交换机、防火墙、人侵检测、负载均衡、语音以及通信传输设备等;
2)服务器:包含ARM服务器、x86服务器、小型机和大型机等;
3)存储:包括磁盘阵列、磁带库、光盘库等。
c)虚拟资源:
1)网络资源:如虚拟网络设备、虚拟链路、虚拟机网络等;
2)计算资源:如虚拟机、虚拟机宿主机等;
3)存储资源:如虚拟存储卷、存储控制器、存储链路等。
d)平台资源:支撑应用系统运行的环境,如操作系统、数据库、中间件等。
e)应用:
1)指实现业务功能的各种软件,如财务软件、人力资源管理软件、办公自动化软件等;2)数据中心应用于自身管理的工具软件,如监控软件、流程管理软件、安全分析软件等。f)数据:
1)业务数据:业务系统采集、分析并存储的各种信息载体等;
2)运维数据:数据中心运行维护过程中,产生的各类运维信息、运行状态日志、故障处理文档等信息;
3)安全数据:在业务运行和运维过程中与安全相关的数据。
4.2.3服务分类视角
按照数据中心运行维护的服务分类视角,数据中心的服务分为托管服务、laaS服务、PaaS服务、SaaS服务和业务系统服务五大类,各类服务对应的维护对象包括:
a)托管服务运行维护对象包括:机房基础设施以及物理资源;
b)IaaS服务运行维护对象包括:机房基础设施、物理资源、虚拟资源和平台资源的相关组件;
c)PaaS服务运行维护对象包括:机房基础设施、物理资源、虚拟资源、平台资源和应用的相关组件;
d)SaaS服务运行维护对象包括:机房基础设施、物理资源、虚拟资源、平台资源、应用和相关数据资源;
e)业务系统服务运行维护对象包括:向用户提供端到端的全面服务,涉及以上所列的各个层次。
4.3数据中心运行维护内容
数据中心运行维护内容是指针对运行维护对象的调研评估、例行操作、响应支持和优化改善。按GB/T28827.2-2012的规定,数据中心运行维护交付内容包括:
a)调研评估:对运行维护对象的运行状况进行分析和评估,并提出方案建议。
b)例行操作:
1)监控:对运行维护对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;
2)预防性检查:对监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以消除或改进;
3)常规作业:对运行维护对象进行的日常维护,包括定期维护、配置备份、数据备份、数据恢复、定期重启等活动。
c)响应支持:
1)事件驱动响应:由于外部事件、系统事件或安全事件,导致运行维护对象整体或部分性能下降、功能丧失,而触发的将运行维护对象恢复到正常状态的活动;
2)服务请求响应:由于需方提出各类服务请求,引发的需要针对运行维护对象、服务级别做出调整或修改的响应型服务,可能涉及服务级别、服务范围、技术资源、服务提供方式等的变更;
3)应急响应:依据GB/T28827.3-2012规定的应急响应服务,执行数据中心EOP。d)优化改善:
1)适应性改进:为保持运行维护对象在新环境中可持续运行而实施的优化改进;
2)增强性改进:采取改进措施,增强数据中心的安全性、可用性和可靠性;
3)预防性改进:检测和纠正维护对象运行过程中潜在的问题或缺陷。
5数据中心运行维护管理要求
5.1数据中心运行维护管理框架
数据中心运行维护管理框架包含观察、分析、决定和实施四个关键环节。数据中心运维过程中,通过观察运维对象及其相关监管/业务目标、外联系统环境,分析数据中心运维的具体要求,制定相关的决策方案并开展具体的实施,提升运行维护服务能力。数据中心运行维护管理框架如图3所示。
图3 数据中心运行维护管理框架
数据中心运维管理的关键内容包括:
a)观察:目标是通过监控和信息采集,从环境中收集与数据中心运维有关的信息,其中:
1)4.2给出了运维对象的定义和范围;
2)运维对象观察至少应包括:配置、容量、性能、可用性和故障等;
3)内外部环境观察至少应包括:业务目标、监管目标,以及外联系统的运行情况等;4)观察的工具至少应包括:监控工具、日志管理工具、流程管理工具等。
b)分析:目标是通过对数据中心运行数据加以综合评估,以准确了解运维对象发生了什么问题及如何解决。为了能够做出更明智的决策,应提出管理要求,并建立管理要求之间的关联关系。
管理要求的关键要素至少应包括:目标管理、服务管控、故障管理、数据保护和数据中心安全管理,其中:
1)5.2给出了目标管理的要求;
2)5.3给出了服务管控的要求;
3)5.4给出了故障管理的要求;
4)5.5给出了数据保护的要求;
5)5.6给出了数据中心安全管理的要求。
c)决定:目标是制定相应的行动措施。根据观察和分析阶段掌握的信息,考虑实施的效率和风险管理能力,定义和选择最适合的解决方案。决策可能对运维对象的影响会反馈到运维对象,进行预案评估。
d)实施:目标是执行决定,并检验结果。当观察到实施的结果后,将信息反馈到运维对象并开始新一轮的「观察、分析、决定和实施」循环。实施的关键要素至少应包括:人员、工具、文档和交付内容的标准化和优化,其中:
1)数据中心运行维护服务人员建议参见附录A;
2)数据中心运行维护服务工具建议参见附录B;
3)数据中心运行维护服务文档示例参见附录C;
4)数据中心运行维护交付内容建议参见附录D。
5.2目标管理
5.2.1概述
数据中心运行维护的目标是明确组织业务和运维服务的相关性,为供需双方运维目标一致性的达成提供支撑,包括但不限于业务关系可视化、分析运维服务需求、管理服务期望、确定运维服务目标、监控服务质量,以及服务的评估、改善和终止。
5.2.2业务关系可视化
明确组织业务和数据中心运维服务的对应关系,实现显性化的展现形式,至少应:
a)在组织战略的指导下,对业务流程进行管理,确定各项业务流程的业务目标;
b)从业务视角出发,结合组织架构、业务流程和应用功能,进行组织业务与IT服务的关联性分析;
c)通过配置管理或相关监控工具,获取和展示业务与信息系统的关系;d)定义组织业务与运维服务的关系形成服务目录,并以服务目录作为业务与IT服务的连接点,有效地协调双方需求。
5.2.3分析运维服务需求
明确组织业务对运维服务的需求和绩效指标,至少应:
a)分析需方组织业务对IT服务的依赖程度;
b)分析需方对各项IT服务的需求,形成服务级别需求;
c)将服务级别需求分拆到技术架构中的各运维对象,形成不同运维对象的运维需求;d)在服务目录的指导下提出服务级别要求(SLR)和关键绩效指标(KPI);e)定义服务目录中的服务内容和服务要求。
5.2.4管理服务期望
评估服务级别需求的合理性,控制供需双方所期望的服务级别协议(SLA),至少应:
a)综合评价供方服务能力,如IT服务的可用性、连续性、容量等,形成IT服务能力基线;
b)评估某个IT服务停止时有无替代手段来维持业务的运行;
c)分析供方现有服务能力水平,识别与需方IT服务需求间的差距;
d)将需方对IT服务的期望值和供方的服务能力进行权衡;
e)协商供需双方对服务级别的理解,以确定最终或阶段性的服务级别需求。
5.2.5确定运维服务目标
分析供方现有服务能力水平,识别差距,形成确实可行的数据中心运维服务目标,至少应:
a)在服务目录的指导下,形成服务级别协议,用于评价供方IT服务质量;
b)考虑IT服务所需成本与SLA之间的平衡,SLA的内容包括服务的容量、可用性以及业务维系所需要的服务级别;
c)识别组织内/外部的其他IT服务资源,确定分包或外包需求,形成运营级别协议(OLA)或支撑合同(UC);
d)提供多种方案,让需方能够在权衡各项服务的重要性和成本的基础上做出选择,OLA的内容则包括服务台的支持时间以及IT服务紧急停止时向业务部门通报的时间等。
5.2.6监控服务质量
建立服务质量水平的监控机制,监控数据中心运维服务质量水平,至少应:
a)定期监控运维服务过程中SLA所规定服务级别目标的达成状况;b)建立服务评审机制,对SLA目标的达成状况等进行定量考核,对业务部门的满意度等指标进行定性考核;
c)通过有效的手段对运维服务质量进行分析和展现。
5.2.7服务的评估、改善和终止
定期评估服务的质量,根据业务需求的变化及时调整、改善服务能力或终止服务,至少应:a)建立服务评审机制,对SLA目标的达成状况等进行定量考核,对业务部门的满意度等指标进行定性考核;
b)根据IT服务评估报告,分析未达成服务目标的原因,制定服务扩展与改善计划;C)制定和协商服务终止方案,就各方职责、中止时间、中止后的替代手段等达成共识;d)制定服务下线计划,修订、发布服务目录,制定系统报废计划,协调相关部门按约定完成人员、信息技术资源的调配。
5.3服务管控
5.3.1概述
为保证数据中心服务管控,数据中心在运行维护过程中,应建立服务管控的机制和相关管理制度,包括系统可用性管理、容量管理、配置管理、变更和发布管理、知识管理和供应商管理等,提升运行维护服务能力,满足SLA规定交付服务内容,并对运行维护服务结果、服务交付过程以及相关管理体系进行监督、测量和分析,并实施改进。
5.3.2系统可用性管理
为保证数据中心的可用性,数据中心在运行维护时,至少应:
a)建立系统可用性的监管机制,对运维对象的运行状态进行监控和管理;
b)配备适合的管理工具,监视运维对象的可用性指标,并分析其与业务需求的匹配程度;
c)监控可用性指标,根据需求的变化评估系统配置、容量和供应商能力等,以降低业务运行风险,提高运维效率;
d)建立完善的EOP和应急响应管理机制,制定系统允余和备份机制;
e)持续改进运维服务能力,满足SLA的相关要求。
5.3.3系统容量管理
为满足业务需求和SLA要求,应对系统容量进行管理,至少应:
a)建立标准化的系统容量管理和资源分配机制,以快速响应业务的需求或及时回收资源;
b)监控IT服务过程中SLA的达成状况,分析满足业务需求的程度,并根据系统容量变化进行适时调整;
c)保障系统容量与业务需求的适配,防止因容量不足造成的IT服务中断;
d)定期对系统容量需求进行评估,保证系统容量能满足当前及未来的业务需求。
5.3.4配置信息管理
对软硬件资产信息和合同信息等组成要素进行统一管理,实现对配置信息的有效管理,建立数据中心承载的业务与运行维护对象间的逻辑关系,至少应:
a)明确信息系统的管理目标和管理对象,以及关联关系,包括但不限于:硬件和软件、设计书、操作手册等文档、SLA等合同文件,以及运维过程文档等;
b)建立完善的CMDB,以及对应的管理流程机制;
c)采用必要的技术手段和工具对配置信息收集、管理;
d)持续完善IT服务的配置信息,并定期进行更新。
5.3.5系统的变更与发布
通过高效、安全可控的方式,对系统的变更和发布进行管理,以降低业务的安全风险,至少应:
a)评估系统变更的目的、内容、以及相关的影响,确保变更合规和可控;
b)记录变更过程中各类操作活动,形成系统变更和发布日志;
c)定期对变更过程的记录和日志进行归档,满足IT审计的相关要求。
5.3.6知识管理
建立知识管理体系,制定技术操作手册或实施方案,采取必要的风险规避措施和回退手段,包括但不限于制定设备及系统的SCP、MOP、SOP,至少应:
a)制定与IT服务目录对应的技术操作手册;
b)明确各系统和基础技术领域的知识管理重点,并定期对技术和知识进行归纳总结;c)建立所有活动及运行维护对象状态的运行维护档案,形成服务文档。
5.3.7供应商管理
建立供应商管理体系,对候选供应商进行调查,确认供应商提供的SLA能力,至少应:
a)设立供应商协调管理机制和机构,明确供应商的筛选、能力认证和合作策略,实现供方自身的服务能力和外部服务能力一体化的管理;
b)建立供应商的能力评估机制,对供应商的擅长领域、人员、能力、产品、客户满意度等进行评估,如涉及多地区/渠道销售的供应商需对其定点服务提供能力进行调查,如涉及供应商子公司则需对其子公司负责领域进行调查;
C)建立供应商的信息共享机制,包括但不限于共享窗口、流程、渠道和沟通机制;
d)对提供云计算服务的供应商,应对其运营服务能力进行评估,保证与SLA要求一致。
5.4故障管理
5.4.1概述
为实现数据中心运行维护过程中的故障管理,应建立故障管理的机制,包括但不限于故障分类与分级、故障分析与应对、故障事后评估和故障预防,以降低系统故障对业务的影响。
5.4.2故障分类分级和定级
根据业务对恢复时间的需求、系统故障的影响范围及持续时间等因素,建立故障的分类分级方法,定义故障类别和响应机制,至少应:
a)建立故障分类分级方法,形成相关的分类分级制度和响应措施;
b)评估不同类别故障对业务的影响范围,确定故障级别,并上报相关部门备案。
5.4.3故障分析与应对
建立故障分析的流程和机制,配备适当的故障管理分析工具,实现对故障的快速应对,至少应:
a)构建系统故障知识库,分析不同故障之间的关联性,以应对不同场景和规模下的系统故障;
b)制定不同系统故障的应对方案,减低系统故障造成的影响。
5.4.4故障事后评估
建立故障处理后的评估机制,评估故障处理的过程和效果,持续改进和优化故障知识库、故障分析和应对流程,至少应:
a)建立故障事后的评估机制和流程,对故障应对措施进行跟踪,确保故障应对措施的有效性;
b)分析并明确系统故障处置流程中的问题,定期总结分析不同故障现象、原因、影响范围、处理过程、解决方案和预防措施,持续优化故障分析和应对措施;
c)持续改进和优化故障管理知识库,制定针对不同类别故障的专项措施和解决方案。5.4.5故障预防
识别频繁出现的系统故障和重大故障,制定有效的规避和预防措施,至少应:
a)开展故障应对的组织保障机制,包括但不限于制度、流程、技术、人员意识等;
b)借助技术手段和工具,分析频繁出现的故障和重大故障,建立故障预防性机制和措施;
c)形成常见故障响应流程,开展必要的故障应对演练,支撑故障的快速处理;
d)评估故障的应对能力,制定预防性的对策以防止故障的发生。
5.5数据保护
5.5.1概述
构建数据的分级分类机制,建立数据应用、管理、备份和恢复的安全保护管理机制和策略,对数据完整性、保密性、隐私性、可信性等进行保护。
5.5.2数据管理
构建数据管理体系,建立数据管理机制、流程和策略,提升数据管理能力,至少应:
a)明确数据管理的角色和职责,明确数据管理相关的职责权利,满足数据治理层面的要求;
b)定期评估数据管理组织机制、数据管理能力,为数据管理体系提供资源保障;
c)建立数据分类分级机制,构建数据管理的流程和规范,必要时提供平台、工具、系统的支撑;
d)制定符合等保、监管、审计方面的监督机制,监督数据安全管理的绩效和符合性;e)制定符合自身管理需求的数据管理目标、方针和策略,并予以及时更新。
5.5.3数据应用安全管控
建立数据应用安全管控措施,对数据应用的安全进行保护,至少应:
a)遵循等保、监管、审计方面的安全要求,保障数据应用过程中安全;
b)构建面向数据全生命周期的应用视图,识别不同应用场景下的数据安全和风险;c)建立对数据访问的安全策略,通过相应的技术手段或机制,防止对未授权的重要数据、敏感数据的访问和传输;
d)建立有效的管控机制和方法,保障数据应用和服务的安全可控、合规、隐私保护。5.5.4数据备份与恢复
制定数据备份与恢复的机制、策略、规范、流程和应急保障措施,对数据存储的安全进行保护,至少应:
a)建立符合数据分级分类要求的数据备份与恢复机制、策略,满足不同级别数据的存储安全保护要求;
b)制定数据备份、恢复规范和操作流程,保障不同数据存储过程的保密性、完整性、可用性和可追溯性;
c)定期开展数据安全应急演练,保障备份与恢复机制和策略的有效性。
5.6安全管理
5.6.1概述
数据中心在运行维护过程中,应满足法律法规、行业监管、标准规范的要求,确保信息资产的保密性、可用性和完整性等,包括但不限于安全管理制度、安全管理岗位、安全状态监控、安全事件处理、应急预案和演练、安全检查和优化。
5.6.2安全管理制度
建立符合等保、监管、审计相关要求的安全管理制度,对信息资产、运维人员、事件活动进行管理,至少应:
a)制定符合相应安全级别要求的安全管理制度,构建满足安全运维的组织机制、岗位角色、人员职责和权限;
b)建立安全运维管理流程,明确安全运维操作规范和工作流程,支撑安全管理活动的实施;
c)建立安全管理制度体系,包括安全策略、管理制度、操作规程、记录表单等。
5.6.3安全管理岗位
建立符合安全管理制度的安全管理岗位,对数据中心安全管理的工作进行指导和管理,至少应:
a)设立安全管理的岗位角色,定义岗位职责,配备相应数量的人员。根据安全管理岗位的职责,明确授权权限,建立相关授权审批程序和审批制度;
b)加强安全管理人员之间、组织内部机构之间以及与外部的专家、组织、外联单位的合作与沟通,定期进行安全的审核和检查,定期开展安全运维人员的安全技能培训和考核;
c)指定专职专人负责安全管理专职岗位的人员录用、外部访问人员的权限管理,离岗人员权限应及时终止或清除。
5.6.4安全状态监控
梳理影响系统安全性的关键要素,建立数据中心运维对象的安全指标体系并进行监控,至少应:
a)明确安全状态监控的对象,构建对应的指标体系,通过必要的技术手段和工具,收集安全信息、识别威胁和入侵行为;
b)分析信息资产的安全监控数据,定期形成安全分析报告,包括但不限于状态分析、影响分析、趋势分析等。
5.6.5安全事件处理
制定安全事件处理流程的管理规范和制度,保障数据中心业务系统安全稳定地运行,至少应:
a)分析和总结频繁发生的安全事件和重大安全事件,明确安全事件等级、影响程度以及响应优先级,制定安全事件报告程序;
b)制定安全事件应急预案响应机制、处置流程和处置方案,满足不同级别的安全事件的要求;
c)定期总结安全事件,总结安全事件处置经验和方法,形成安全事件处置报告。5.6.6应急预案和演练
制定有效的应急预案,并定期开展演练,至少应:
a)分析安全事件的影响程度和范围,制定有效的应急预案;
b)定期开展应急预案的演练,保证应急预案的有效性。
5.6.7安全检查和优化
定期开展安全检查,以满足等保、监管、审计要求,并持续改进和优化,至少应:
a)制定安全检查的计划和方案,明确安全检查的范围、对象和方法等;
b)定期开展安全检查的实施,对检查活动进行记录,分析潜在的风险和威胁;
c)持续改进安全管理机制,优化安全管理的制度、处理流程、应急预案和实施方案。
附录C
(资料性附录)
数据中心运行维护服务文档示例
C.1概述
运行维护服务实施中,供方应按要求提交服务文档。服务文档通常分为例行报告、事件报告、故障总结报告、发布检查列表和应急预案等。
C.2例行报告
例行报告内容至少包括:
a)报告名称、报告周期。
b)需方、供方相关信息。
c)服务综述。
d)运行维护对象(机房基础设施、物理资源、虚拟资源、平台资源、应用、数据):
1)服务内容;
2)服务完成情况及下一步工作计划;
3)服务工作量;
4)SLA目标相关绩效表现(响应时间、平均故障修复时间、事件量、问题数、变更实施、故障时间/次数、影响业务的时间/次数等);
5)SLA达成及未达成情况、安全违规及考核实施情况;
6)运行维护对象情况分析、隐患及相关的纠正和预防措施(或建议);
7)重大事件(故障)的分析(对需方业务的影响和成本分析)、纠正和预防措施及落实跟踪情况,相关变更和发布的绩效;
8)趋势分析和预警(响应事件量、问题数、故障时间/次数、影响业务的时间/次数);9)基于SLA指标的控制要求,针对收集的数据(如:响应事件量、问题数、故障时间/次数、影响业务的时间/次数等)采用适当的统计分析技术(如统计过程控制图、蒙特卡洛模拟等),进行数据建模与分析,作为预测和控制的基础;
10)改进/提升建议。
C.3事件报告
事件报告内容至少包括:
a)报告名称;
b)需方、供方相关信息;
C)关键字;
d)事件状态;
e)事件描述;
f)事件的影响程度、范围;
g)事件级别;
h)事件关闭条件;
i)事件列表及已完成事项;
j)事件处理组织架构;
k)事件发生时间/地点;
1)事件受理时间;
m)恢复时间:
n)事件处理结束时间;
O)事件处理过程时间轴;
p)事件处理情况/工作量;
q)事件发生频度;
r)事件原因分析及建议;
s)后续改进计划。
C.4故障总结报告
故障总结报告内容至少包括:
a)报告名称:
b)需方、供方相关信息;
c)目前状态:
d)故障摘要描述;
e)故障原因;
f)触发条件;
g)解决方案概述;
h)监测;
i)待办事项;
j)经验教训;
k)故障处理过程时间轴。
C.5发布检查列表
发布检查列表内容至少包括:
a)发布对象;
b)整体架构;
C)任务清单:
d)流量、容量及性能需求预测;
e)运行环境需求(服务器、网络、安全等);
f)风险评估及应对措施;
g)过程监控和管理措施;
h)外部依赖条件;
i)发布计划。
C.6应急预案
应急预案内容至少包括:
a)应急预案对象;
b)职责分工、资源准备;
c)预警和响应机制;
d)应急处理流程;
e)保障措施;
f)预案评审优化。
附录D
(资料性附录)
数据中心运行维护交付内容
D.1机房基础设施
D.1.1运行维护对象
数据中心的机房基础设施运行维护对象应至少包括:
a)电气系统:高低压供配电系统、电源系统、照明系统、电缆及母线槽、防雷与接地等;
b)通风空调系统:空调水系统、空调风系统、机房空调系统等;
c)消防系统:消防供配电设施、火灾自动报警系统、应急照明与疏散指示系统、应急广播系统、消防供水设施及消火栓系统、自动灭火系统、防烟排烟系统、防火分隔设施、建筑灭火器、空气(氧气)呼吸器等;
d)智能化系统:环境和设备监控系统、安全防范系统、综合布缆等。
D.1.2调研评估
根据数据中心运行维护需求,对机房基础设施的运行现状进行调查分析,建立各系统的SCP及MOP、SOP等规范性文档。
D.1.3例行操作
D.1.3.1概述
数据中心的机房基础设施的例行操作内容应包括监控、预防性检查和常规作业。D.1.3.2监控
在数据中心运行维护过程中,对机房基础设施进行监控时,应根据具体的运行维护对象,确定监控内容和指标。
根据数据中心的机房基础设施配置情况,各类机房基础设施监控的内容应至少包括表D.1中的规定。注:由于数据中心的规模和应用类型不同,表D.1不规定各类机房基础设施的监控指标和采集周期。
D.1.3.3预防性检查
在数据中心运行维护过程中,对机房基础设施进行预防性检查时,应根据具体的运行维护对象,确定性能检查内容和脆弱性检查内容。
根据数据中心的机房基础设施配置情况,各类机房基础设施预防性检查的内容应至少包括表D.2中的规定。
注:由于数据中心的规模和应用类型不同,表D.2不规定各类机房基础设施的预防性检查的指标和检查周期。
D.1.3.4常规作业
机房基础设施的常规作业包括基础类操作、测试类操作和数据类操作:
a)基础类操作:参照设备设施的相关手册和SCP,制定相应的SOP,MOP,并按SOP、MOP规定的程序执行设备的日常运行、维护和保养等作业;
b)测试类操作:按相应的SOP、MOP对机房基础设施各系统功能、性能进行测试作业;
c)数据类操作:按相应的SOP、MOP对机房基础设施运行日志、记录等数据进行备份、清除、更新等操作。
在数据中心运行维护过程中,对机房基础设施进行常规作业时,应根据具体的运行维护对象,确定操作内容和周期。
根据数据中心机房基础设施配置情况,各类机房基础设施常规作业的内容应至少包括表D.3中规定。
注:由于数据中心的规模和应用类型不同,表D.3不规定各类机房基础设施的常规作业的周期。
D.1.4响应支持
D.1.4.1概述
在数据中心运行维护过程中,对机房基础设施进行响应支持时,应根据不同的运行维护对象和系统运行要求,确定事件驱动响应和服务请求响应的具体服务内容。
D.1.4.2事件驱动响应
针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:
a)电气系统:
1)配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;
2)发电机系统包括故障排查、启动发电机、油料补充、冷却液更换、电瓶更换等;3)UPS系统包括故障排查、旁路系统、关闭非重要输出等;
4)直流电源系统包括故障排查、整流模块维修更换等;
5)防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等。
b)通风空调系统:故障排查、关闭部分设备以维持数据中心温湿度指标、关闭新风系统等。
c)消防系统:故障排查、系统启动、报警联动、疏散警示等。
d)智能化系统:
1)BAS系统包括故障排查,检测组件(设备)、DDC、执行器更换等,软硬件升级等;
2)动力环境监控系统包括故障排查,检测组件(设备)等更换等,软硬件升级等;
3)视频监控系统包括故障排查、摄像机或硬盘更换、检查告警、数据恢复等;
4)门禁系统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等;
5)综合布缆系统:更换线缆、模块等。
D.1.4.3服务请求响应
根据应用系统运行需要或需方的请求,而进行的响应服务,包括但不限于:
a)电气系统:
1)配电系统包括增减回路、增减供电类型(如直流、110V),分支回路相位调整等;
2)发电机为指定负载供电等;
3)UPS系统包括旁路操作、为指定负载供电等;
4)防雷接地系统包括新设备接地等。
b)通风空调系统:调整温度、湿度参数等,调整新风量等。
c)消防系统:增减设备、更新联动逻辑、检查及提供告警及监控记录、备份或清除记录等。
d)机房监控与安全防范系统:
1)BAS系统包括数据中心扩容或改造时增减或调整相应的传感器、DDC、执行器等、更新点表,调整阈值设定等;在季节转换时变更工况设置等;
2)动力环境监控系统包括增减或调整检测组件(设备)、数据中心扩容或改造时屏蔽告警、连接新的被监控设备、更新系统EEUE计算公式等;
3)视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;
4)门禁系统包括增加、删减、变更门禁权限等;
5)综合布缆系统:链路跳接、跳线更换,布线扩容等。
D.1.5优化改善
D.1.5.1概述
在数据中心运行维护过程中,对机房基础设施进行优化改善时,应根据数据中心容量的变化情况以及不同的运行维护对象和系统运行要求,确定适应性改进、增强性改进和预防性改进的具体服务内容。
D.1.5.2适应性改进
根据数据中心容量的变化情况以及业务系统及其软硬件环境的运行要求,对机房基础设施进行必要的调整,包括但不限于:
a)电气系统:配电系统根据数据中心容量情况包括更换开关、导线以适配负载容量等,发电机包括调整启动方式等,调整防雷接地系统等。
b)通风空调系统:调整机组主备运行模式,适应数据中心容量变化;调整温湿度参数等、调整机组位置、增减新风风量等。
C)智能化系统:
1)调整BAS系统的控制逻辑,适应数据中心的工况、容量变化;
2)调整环境和设备监控系统、视频监控系统和门禁系统,以数据中心容量、防护等级等的变化;
3)调整综合布缆系统,以适应应用系统的变化。
D.1.5.3增强性改进
根据数据中心容量的变化情况以及业务系统及其软硬件环境的运行状况,对机房基础设施进行调整、扩容或升级,包括但不限于:
a)电气系统:
1)电力系统增容;
2)配电系统包括增加回路、增加ATS设备等;
3)UPS系统包括增加主机数量、增加电池数量等;
4)防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等。
b)通风空调系统:增减空调机组、改善气流组织[如增减气流增强装置、封闭冷(热)通道等],增加新风机组、预处理装置等。
c)消防系统:包括增加检测组件(设备)和喷头数量,更换高性能控制主机。
d)智能化系统:
1)环境和设备监控系统:增加检测组件(设备)密度、提高检测组件(设备)精度或更换功能更完善的检测组件(设备)等,升级环境和设备监控软硬件等;
2)视频监控和门禁系统包括增加报警联动、增加终端数量、增加存储容量等;
3)综合布缆系统:线路扩容、提升布线系统级别等;
4)使用物联网等技术对数据中心中的各类设备进行全生命周期的管理,包括但不限于设备状态、位置、异动信息等。
D.1.5.4预防性改进
根据业务系统及其软硬件环境的运行趋势,对机房基础设施的脆弱点实施改进作业,包括但不限于:
a)电气系统:配电系统包括更换开关、更换导线、调整回路等;发电机包括更换电瓶,更换或添加适应环境温度的防冻液和油料等;防雷接地系统包括焊接点加固、防腐处理等。b)通风空调系统:调整机组位置,调整出回风方式等。
c)消防系统:消防系统包括消防系统预防性改进(按照当地消防管理部门管理要求)。
d)智能化系统:
1)BAS系统与工单系统的联动;
2)环境和设备监控系统与运维管理系统联动;
3)安防系统的视频监控和门禁系统与消防系统联动,安防系统的门禁系统与工单系统、人员定位系统联动等;
4)综合布缆系统弱电线缆与强电线缆的物理隔离,线缆整理,鼠患排查等。D.2物理资源
D.2.1运行维护对象
运行维护对象包括:
a)网络:包括局域网、广域网、互联网、网络线路(包括专线、、路由器、交换机、防火墙、入侵检测、负载均衡、语音以及通信传输设备等;
b)服务器:包含ARM服务器、x86服务器、小型机和大型机等;
c)存储:包括磁盘阵列、磁带库、光盘库等。
D.2.2调研评估
通过对物理资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案。
D.2.3例行操作
D.2.3.1监控
在数据中心运行维护过程中,对物理资源进行监控时,应根据具体的运行维护对象,确定监控内容和指标。
根据数据中心的物理资源配置情况,各类物理资源监控的内容应至少包括表D.4中的规定。注:由于数据中心的规模和应用类型不同,表D.4不规定各类物理资源的监控指标和采集周期。
D.2.3.2预防性检查
在数据中心运行维护过程中,对物理资源进行预防性检查时,应根据具体的运行维护对象,确定性能检查内容和脆弱性检查内容。
根据数据中心的物理资源配置情况,各类物理资源预防性检查的内容应至少包括表D.5中的规定。注:由于数据中心的规模和应用类型不同,表D.5不规定各类物理资源的预防性检查的指标和检查周期。
D.2.3.3常规作业
在数据中心运行维护过程中,对物理资源进行常规作业时,应根据具体的运行维护对象,确定操作内容和周期。
根据数据中心的物理资源配置情况,各类物理资源常规作业的内容应至少包括表D.6中的规定。注:由于数据中心的规模和应用类型不同,表D.6不规定各类物理资源的常规作业的周期。
D.2.4响应支持
D.2.4.1概述
在数据中心运行维护过程中,对物理资源进行响应支持时,应根据不同的运行维护对象和系统运行要求,确定事件驱动响应和服务请求响应的具体服务内容。
D.2.4.2事件驱动响应
针对物理资源的故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:
a)网络事件驱动响应:
1)故障定位;
2)停止、启动进程;
3)中断、连通网络连接;
4)关闭、启动端口;
5)网络备件更换;
6)更改、恢复配置。
b)服务器事件驱动响应:
1)服务器重启;
2)更换故障部件,包括主板、电源、CPU、内存、硬盘等;
3)服务器关键部件微码升级;
4)服务器硬盘RAID配置修复。
(c)存储事件驱动响应:
1)存储重启;
2)配置文件恢复;
3)更换故障部件,包括电源、硬盘等;
4)微码升级;
5)存储管理软件补丁安装;
6)数据修复。
D.2.4.3服务请求响应
根据应用系统运行需要或需方的请求,而进行的响应服务,包括但不限于:
a)网络服务请求响应:
1)增加、降低网络接入的数量或速度;
2)更改网络设备配置;
3)启动、关闭端口或服务;
4)更换、更新或升级设备硬件或软件。
b)服务器服务请求响应:
1)服务器设备搬迁;
2)服务器设备停机演练;
3)服务器设备清洁维护等;
4)服务器硬件扩容;
5)集群环境搭建和切换演练。、
c)存储服务请求响应:
1)存储设备搬迁;
2)存储设备停机演练;
3)存储设备清洁维护;
4)存储硬盘空间扩容;
5)存储结构调整;
6)新增主机分配存储空间;
7)主机端多路径软件的安装配置。
D.2.5优化改善
D.2.5.1概述
在数据中心运行维护过程中,对物理资源进行优化改善时,应根据不同的运行维护对象和系统运行要求,确定适应性改进、增强性改进和预防性改进的具体服务内容。
D.2.5.2适应性改进
根据业务系统及其软硬件环境的运行要求,对物理资源进行必要的调整,包括但不限于:
a)网络适应性改进:
1)路由策略调整;
2)设备或链路负载调整;
3)网络安全加固;
4)网络敏感数据加密;
5)监控对象覆盖范围调整;
6)局部交换优化;
7)局部完余优化。
b)服务器适应性改进:
1)服务器硬盘RAID配置调整;
2)服务器网络、光纤链路冗余调整;
3)服务器电源供电接入冗余调整。
c)存储适应性改进:
1)存储设备读写高速缓存(Cache)比例调整;
2)存储设备RAID保护级别调整;
3)存储设备新增硬盘,包括新增磁盘扩展柜;
4)存储设备逻辑盘的容量调整;
5)存储设备分配主机的调整;
6)磁带池的配置调整;
7)光纤交换机存储网络区域(ZONE)规划调整。
D.2.5.3增强性改进
根据业务系统及其软硬件环境的运行状况,对物理资源进行调整、扩容或升级,包括但不限于:a)网络增强性改进:
1)硬件容量变化,如网络设备硬件、软件升级、带宽升级等;
2)整体网络架构变动;
3)安全设备特征库升级;
4)网络架构容量变化,如网络子系统的增减等;
5)系统功能变化,如新增功能区、新增安全系统、新增审计系统等;
6)路由协议应用及部署调整;
7)整体安全策略收紧;
8)交换优化;
9)冗余优化。
b)服务器增强性改进:
1)为本服务器从存储系统上分配更大空间;
2)服务器CPU个数增加;
3)服务器内存容量增加;
4)服务器磁盘空间扩容;
5)服务器网卡和HBA接口卡增加等。
c)存储增强性改进:
1)存储设备控制器、硬盘等部件的微码升级;
2)存储设备新增硬盘扩容,包括新增磁盘扩展柜;
3)存储设备高速缓存(Cache)容量增加;
4)磁带池的容量调整,包括新增磁带;
5)磁带驱动器的新增;
6)存储设备光纤模块的升级;
7)光纤交换机的光纤模块升级;
8)光纤交换机的端口激活扩容,包括新增光模块;
9)存储设备管理软件的版本升级。
D.2.5.4预防性改进
根据业务系统及其软硬件环境的运行趋势,对物理资源的脆弱点实施改进作业,包括但不限于:
a)网络预防性改进:
1)配置参数优化,例如关闭不必要的服务、打开缺省的增强功能、加快三层网络路由收敛速度、加快二层网络生成树收敛速度等;
2)网络安全优化,例如:添加防火墙、IPS、WAF、DDoS等安全设备;
3)提高软件配置命令可读性。
b)服务器预防性改进:
1)检查服务器硬盘RAID配置,及时修复或更换故障硬盘;
2)增加服务器网卡、光纤卡以及链路冗余情况;
3)增加服务器电源供电模块冗余。
c)存储预防性改进:
1)收集磁盘空间的使用情况,及时清理垃圾数据或增加存储设备容量;
2)查看存储控制器电池的使用情况,及时更换新的电池;
3)检查存储设备的电源是否老化,及时更换新的电源;
4)查看磁带驱动器的使用情况,及时清洗磁头;
5)查看存储设备的读写性能,适时调整存储控制器的高速缓存(Cache)容量。
D.3虚拟资源
D.3.1运行维护对象
运行维护对象至少应包括:
a)网络资源:如虚拟网卡、虚拟网络设备、虚拟链路、虚拟机网络等;
b)计算资源:如虚拟机、虚拟机宿主机等;
c)存储资源:如虚拟存储卷、服务控制器、存储链路等。
D.3.2调研评估
通过对虚拟资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案。D.3.3例行操作
D.3.3.1监控
在数据中心运行维护过程中,对虚拟资源进行监控时,应根据具体的对象,确定监控内容和指标。根据数据中心的虚拟资源配置情况,各类虚拟资源监控的内容应至少包括表D.7中的规定。注:由于数据中心的规模和应用类型不同,表D.7不规定各类虚拟资源的监控指标和采集周期。
D.3.3.2预防性检查
在数据中心运行维护过程中,对虚拟资源进行预防性检查时,应根据具体的运行维护对象,确定性能检查内容和脆弱性检查内容。
根据数据中心的虚拟资源配置情况,各类虚拟资源预防性检查的内容应至少包括表D.8中的规定。注:由于数据中心的规模和应用类型不同,表D.8不规定各类物理资源的预防性检查的指标和检查周期。
D.3.3.3常规作业
在数据中心运行维护过程中,对虚拟资源进行常规作业时,应根据具体的运行维护对象,确定操作内容和周期。
根据数据中心的虚拟资源配置情况,各类虚拟资源常规作业的内容应至少包括表D.9中的规定。注:由于数据中心的规模和应用类型不同,表D.9不规定各类虚拟资源的常规作业的周期。
D.3.4响应支持
D.3.4.1概述
在数据中心运行维护过程中,对虚拟资源进行响应支持时,应根据不同的运行维护对象和系统运行要求,确定事件驱动响应和服务请求响应的具体服务内容。
D.3.4.2事件驱动响应
针对虚拟资源及所依赖的硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:
a)故障定位;
b)虚拟资源重新调配、紧急迁移、紧急扩容;
c)解决虚拟资源所依赖的物理资源故障和缺陷,包括:服务器、网络及网络设备、虚拟网络控制器、存储、仲裁控制点(磁盘、光纤链路、服务器等)等;
d)虚拟资源紧急操作,如更换、中断、连通网络连接,关闭、启动端口,更改、恢复配置,停止及启动进程、重启等。
D.3.4.3服务请求响应
根据应用系统运行需要或需方的请求,而进行的响应服务,包括但不限于:
a)虚拟机、配置信息、数据的备份与恢复;
b)虚拟机创建、迁移、回收、变更;
c)虚拟资源的容灾、高可用配置、计划实施与演练;
d)虚拟网络控制器配置变更下发;
e)数据统一备份;
f)数据访问性能优化;
g)数据在线迁移与分级存储;
h)新增主机分配存储空间;
i)现有主机存储空间调整;
j)主机端多路径软件的安装配置;
k)虚拟资源的扩容、调配、变更;
1)增加、降低虚拟网络资源网络接入数量或速率;
m)更改虚拟网络资源配置;
n)启动、关闭端口或服务;
o)更换、更新或升级虚拟网络资源硬件或软件。
D.3.5优化改善
D.3.5.1概述
在数据中心运行维护过程中,对虚拟资源进行优化改善时,应根据不同的运行维护对象和系统运行要求,确定适应性改进、增强性改进和预防性改进的具体服务内容。
D.3.5.2适应性改进
根据业务系统及其软硬件环境的运行要求,对虚拟资源进行必要的调整,包括但不限于:
a)虚拟网络设备或链路负载调整;
b)虚拟网络安全策略调整;
c)虚拟网络监控对象覆盖范围调整;
d)虚拟网络路由策略调整;
e)虚拟网络交换及冗余优化;
f)虚拟网络资源调配;
g)虚拟网络控制器配置优化调整;
h)虚拟机计算资源CPU、内存容量、硬盘容量、网络的调整;
i)虚拟机计算资源迁移;
j)虚拟化计算资源调度的算法;
k)虚拟存储服务控制器前后端网络(SAN或IP)端口吞吐速率的调整;1)根据数据生命周期,进行存储资源分层调整;
m)数据存储平衡算法调整;
n)虚拟存储卷保留份数调整;
o)虚拟存储卷镜像复制级别调整。
D.3.5.3增强性改进
根据业务系统及其软硬件环境的运行状况,对虚拟资源进行调整、扩容或升级,包括但不限于:
a)虚拟网络资源调整,如CPU、内存、端口的调配、扩容回收;
b)虚拟网络资源网络架构变动;
c)虚拟网络架构容量变化,如网络子系统的增减等;
d)虚拟网络系统功能变化,如新增安全系统、新增审计系统等;
e)虚拟网络路由协议应用及部署调整;
f)虚拟网络整体安全策略收紧;
g)虚拟网络资源允余优化;
h)虚拟网络控制器软件版本升级;
i)虚拟计算资源宿主机服务器和虚拟机计算能力扩容;
j)虚拟计算资源宿主机服务器和虚拟机内存扩容;
k)虚拟计算资源宿主机服务器和虚拟机网络吞吐能力扩容;
1)虚拟计算资源高可用性增强与演练;
m)虚拟计算资源容错机制增强与演练;
n)虚拟计算资源备份恢复测试;
O)虚拟存储服务控制器节点数量增加;
p)虚拟存储服务控制器内存容量增加;
q)虚拟存储服务控制器CPU性能增强;
r)虚拟存储服务控制器前后端网络(SAN或IP)端口增加;
s)虚拟存储服务控制器后端分布式物理存储的高速缓存(Cache)、容量等增加;t)虚拟存储服务控制器微码升级;
u)安全设备特征库升级;
v)存储虚拟化软件升级。
D.3.5.4预防性改进
根据业务系统及其软硬件环境的运行趋势,对虚拟资源的脆弱点实施改进作业,包括但不限于:
a)虚拟网络配置参数优化,例如虚拟网络资源的VLAN、QOS、ACL、带宽等;
b)虚拟网络部署路由策略情况下端到端选路变化、端口流量变化、路由条目变化;
c)根据系统监控得到的信息替换可能存在问题的内存,CPU,硬盘,网络设备等;
d)根据系统的压力增长趋势主动对物理服务器的数量进行必要的扩容;
e)根据系统的发展趋势对网络系统采取必要的扩容;
f)收集存储资源空间的使用情况,及时清理垃圾数据或增加存储资源的容量;
g)监控服务控制器的负载情况,必要时增加硬件数量,或提高硬件规格;
h)监控服务控制器的硬件出错率,替换存在问题的硬件;
i)监控服务控制器后端分布式物理存储的硬件出错率,替换存在问题的硬件;
j)监控仲裁控制点(磁盘、光纤链路、服务器等)的运行情况;
k)服务控制器微码升级;
l)网络安全优化,例如:添加防火墙、IPS、WAF、DDoS等安全设备;m)存储虚拟化软件升级。
D.4平台资源
D.4.1运行维护对象
运行维护对象包括操作系统、数据库、中间件。
D.4.2调研评估
通过对平台资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案。D.4.3例行操作
D.4.3.1监控
在数据中心运行维护过程中,对平台资源进行监控时,应根据具体的运行维护对象,确定监控内容和指标。
根据数据中心的平台资源配置情况,各类平台资源监控的内容应至少包括表D.10中的规定。注:由于数据中心的规模和应用类型不同,表D.10不规定各类平台资源的监控指标和采集周期。
D.4.3.2预防性检查
在数据中心运行维护过程中,对平台资源进行预防性检查时,应根据具体的运行维护对象,确定性能检查内容和脆弱性检查内容。
根据数据中心的平台资源配置情况,各类平台资源预防性检查的内容应至少包括表D.11中的规定。
D.4.3.3常规作业
在数据中心运行维护过程中,对平台资源进行常规作业时,应根据具体的运行维护对象,确定操作内容和周期。
根据数据中心的平台资源配置情况,各类平台资源常规作业的内容应至少包括表D.12中的规定。注:由于数据中心的规模和应用类型不同,表D.12不规定各类平台资源的常规作业的周期。
D.4.4响应支持
D.4.4.1概述
在数据中心运行维护过程中,对平台资源进行响应支持时,应根据不同的运行维护对象和系统运行要求,确定事件驱动响应和服务请求响应的具体服务内容。
D.4.4.2事件驱动响应
针对设备的软、硬件故障、误操作等引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务。包括但不限于:
a)操作系统事件驱动响应:
1)操作系统崩溃;
2)操作系统CPU、内存等资源耗尽;
3)操作系统服务进程无效;
4)操作系统文件系统空间不够;
5)操作系统接口无法通讯;
6)操作系统无法识别外置存储空间。
b)数据库事件驱动响应:
1)数据库宏机、锁死;
2)数据文件坏块修复;
3)数据库重启;
4)数据库监听端口冲突;
5)数据库备份恢复;
6)数据库解锁。
c)中间件事件响应驱动:
1)服务进程假死;
2)应用服务掉线或重启;
3)配置文件恢复;
4)守护服务调整。
D.4.4.3服务请求响应
根据应用系统运行需要或需方的请求,而进行的响应服务。包括但不限于:
a)操作系统服务请求响应:
1)操作系统版本升级;
2)操作系统死机修复;
3)操作系统文件系统损坏修复;
4)操作系统文件系统空间扩容:
5)操作系统IP地址修改;
6)操作系统参数调整;
7)操作系统日志清理。
b)数据库服务请求响应:
1)数据库版本升级;
2)数据库灾难恢复;
3)数据清理和维护。
c)中间件服务请求响应:
1)中间件新增应用服务;
2)中间件参数调整;
3)中间件软件版本升级。
D.4.5优化改善
D.4.5.1概述
在数据中心运行维护过程中,对平台资源进行优化改善时,应根据不同的运行维护对象和系统运行要求,确定适应性改进、增强性改进和预防性改进的具体服务内容。
D.4.5.2适应性改进
根据业务系统及其软硬件环境的运行要求,对平台资源进行必要的调整,包括但不限于:a)操作系统适应性改进:
1)操作系统交换区容量调整;
2)操作系统内核参数调整;
3)操作系统文件系统使用空间调整划分。
b)数据库适应性改进:
1)数据库索引调整;
2)数据库执行SQL计划调整;
3)数据表参数调整;
4)数据库对象的调整;
5)主机操作系统内核参数调整;
6)数据库参数调整;
7)临时表空间、用户表空间调整;
8)数据库物理部署的调整(迁移至新服务器或者数据库存储阵列调整);
9)调整数据库备份策略。
c)中间件适应性改进:
1)中间件参数配置优化;
2)数据库连接参数调整;
3)连接池参数调整;
4)相关操作系统参数调整。
D.4.5.3增强性改进
根据业务系统及其软硬件环境的运行状况,对平台资源进行调整、扩容或升级,包括但不限于:a)操作系统增强性改进:
1)操作系统版本升级;
2)操作系统内存扩容;
3)操作系统磁盘空间扩容;
4)操作系统增加网卡、光纤卡数量;
5)操作系统参数调优。
b)数据库增强性改进:
1)数据库版本升级、打补丁;
2)由于主机CPU个数、内存容量增加调整数据库相应的参数;
3)由于主机存储的增加调整数据库表空间容量;
4)数据库安全备份架构构建以提高可用性;
5)数据库调优等。
c)中间件增强性改进:
1)中间件版本升级、打补丁;
2)由于主机CPU个数、内存容量增加调整中间件相应的参数。
D.4.5.4预防性改进
根据业务系统及其软硬件环境的运行趋势,对平台资源的脆弱点实施改进作业,包括但不限于:a)操作系统预防性改进:
I)操作系统删除垃圾数据,释放数据空间;
2)操作系统文件系统扩容;
3)操作系统增加网卡、光纤卡冗余;
4)操作系统用户权限合理分配;
5)操作系统进程服务端口调整。
b)数据库预防性改进:
1)增加数据库表空间、数据文件空间使用范围;
2)对数据库存在的无效对象处理;
3)数据库用户的权限合理分配或收回。
c)中间件预防性改进:
1)删除临时文件,释放数据空间;
2)监控主要参数以及时调优;
3)应用备份策略调整;
4)定期备份。
D.5应用
D.5.1运行维护对象
运行维护对象是应用,包括业务软件和管理软件等。
D.5.2调研评估
通过对应用和相关资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案。
D.5.3例行操作
D.5.3.1监控
在数据中心运行维护过程中,对应用及相关资源进行监控时,应根据具体的运行维护对象,确定监控内容和指标。
要保障数据中心应用的正常运行,需要平台资源的配置和满足应用要求,同时需对应用系统本身的资源和业务进行监控,监控内容包括不限于:
a)平台资源监控:操作系统CPU、内存、磁盘、网络带宽、端口、I/O、文件系统等,数据库库表空间、连接数、文件数、用户数,中间件等,参见D.4平台资源;
b)应用层资源监控:参见表D.13;
c)应用层业务监控:通过日志和日志监控分析对应用层业务运行情况进行监控。注:由于数据中心的规模和应用类型不同,表D.13不规定各类应用的监控指标和采集周期。
D.5.3.2预防性检查
在数据中心运行维护过程中,对应用进行预防性检查时,应根据具体的运行维护对象,确定性能检查内容和脆弱性检查内容。
根据数据中心的应用配置情况,各类应用预防性检查的内容应至少包括表D.14中的规定。注:由于数据中心的规模和应用类型不同,表D.14不规定各类应用的预防性检查的指标和检查周期。
D.5.3.3常规作业
在数据中心运行维护过程中,对应用进行常规作业时,应根据具体的运行维护对象,确定操作内容和周期。
根据数据中心的应用配置情况,各类应用常规作业的内容应至少包括表D.15中的规定。注:由于数据中心的规模和应用类型不同,表D.15不规定各类应用的常规作业的周期。
D.5.4响应支持
D.5.4.1概述
在数据中心运行维护过程中,对应用进行响应支持时,应根据不同的运行维护对象和系统运行要求,确定事件驱动响应和服务请求响应的具体服务内容。
D.5.4.2事件驱动响应
针对应用故障而进行的响应服务。包括但不限于:
a)应用级启停;
b)系统级启停等。
D.5.4.3服务请求响应
根据应用系统运行需要或需方的请求,进行及时响应和处理。例如:
a)按服务请求指示进行用户增加;
b)口令修改;
C)参数调整等。
D.5.5优化改善
在数据中心运行维护过程中,对应用进行优化改善时,应根据不同的运行维护对象和系统运行要求,确定具体服务内容。
应用的优化改善服务包括但不限于:
a)应用消息队列、共享内存优化;
b)应用服务能力优化,例如:应用进程数、应用线程数的优化;
c)应用日志级别及日志空间的调整;
d)应用版本及配置的升级、打补丁;
e)日志代码优化升级、日志监控分析代码优化升级等。
注:D.5.5中应用的优化改善服务通常指在软件运行中对软件有关性能、维护参数调整,对于应用自身功能增加、变动等引起的优化改善活动不在范围内,参见GB/T20157-2006。
D.6数据
D.6.1运行维护对象和活动
数据运行维护对象包括:
a)业务数据:业务系统采集、分析并存储的各种信息载体等;
b)运维数据:数据中心运行维护过程中,产生的各类运维信息、运行状态和日志、故障处理过程等信息;c)安全数据:在业务和运维过程中与安全相关的数据。
D.6.2调研评估
按D.1.2、D.2.2、D.3.2、D.4.2、D.5.2给出的要求。
D.6.3例行操作
D.6.3.1监控
在数据中心运行维护过程中,对数据资源进行监控时,应根据具体的运行维护对象,确定监控内容和指标。
根据数据中心的平台资源配置情况,各类数据资源监控的内容应至少包括表D.16中的规定。注:由于数据中心的规模和应用类型不同,表D.16不规定各类数据资源的监控指标和采集周期。
D.6.3.2预防性检查
在数据中心运行维护过程中,对数据资源进行预防性检查时,应根据具体的运行维护对象,确定性能检查内容和脆弱性检查内容。
根据数据中心的平台资源配置情况,各类数据资源预防性检查的内容应至少包括表D.17中的规定。
注:由于数据中心的规模和应用类型不同,表D.17不规定各类数据资源的预防性检查的指标和检查周期。
D.6.3.3常规作业
在数据中心运行维护过程中,对数据资源进行常规作业时,应根据具体的运行维护对象,确定操作内容和周期。
根据数据中心的数据资源配置情况,各类数据资源常规作业的内容应至少包括表D.18中的规定。注:由于数据中心的规模和应用类型不同,表D.18不规定各类数据资源的常规作业的周期。
D.6.4响应支持
按D.1.4、D.2.4、D.3.4、D.4.4、D.5.4给出的要求。
D.6.5优化改善
按D.1.5、D.2.5、D.3.5、D.4.5、D.5.5给出的要求。
在数据中心运行维护过程中,应根据不同的业务数据特性和应用范围,对数据进行梳理、优化,并提出改善建议,对数据的优化改善往往会涉及对应用的变更。
数据的优化改善服务包括但不限于:
a)数据存储方案;
b)数据重构方案。