《数字金融》专刊第02期
安全与风控
背景概述
郑州商品交易所(以下简称“郑商所”)是国务院批准的首家期货市场试点单位,是全国四家期货交易所之一,郑商所数据中心是承载期货交易结算和风险控制等期货业务的信息技术基础平台,将在未来10年或更长时间内运营其核心技术系统并向行业客户提供高质量托管服务,保障郑商所数据中心运营的安全极其重要。
郑商所数据中心基础运维部负责风、火、水、电等基础设施实时监控,定期定时巡检、预防性计划保养和应急预案制定等,为数据中心各类IT设备提供持续安全稳定的运行提供支撑。
郑商所数据中心投入试运营以来,发生过因大雨导致的积水、柴油发电机切换测试出现电缆温度超标等问题,基础运维部基于郑商所数据中心现在情况,梳理了应急场景,建立应急管理体系框架,并制定了应急管理综合解决方案和应急演练计划,形成定期进行桌面推演、模拟环境演练和生产环境演练机制,为数据中心的安全运营提供了保障机制。
应急管理体系框架
应急管理目标
应急管理目的在于针对不同的风险应急场景制定相应的应对策略和具体处置措施,以便在紧急事件发生后,有针对性地在第一时间,对特定风险应急场景有计划、有步骤地采取一系列处置措施,应尽可能在最短时间内使企业、组织、系统恢复正常运营,尽快恢复关键业务服务,并且在最大限度范围内减少该风险所带来的损失。
应急和故障的区别
应急管理体系
针对本数据中心基础设施运维的特点,建立基础设施运维应急处理体系,应急体系建设原则如下:
总则:包括基础设施运维应急处理体系目的、工作原则、编制依据和适用范围。
数据中心基础设施运维应急处理组织指挥体系及职责:包括组织机构和职责、组织体系框架描述。
数据中心基础设施运维应急处理的预防和预警机制:包括对预防机制、预警监测、预防预警行动、预警分级和发布的介绍。
数据中心基础设施运维应急处理的应急响应:说明应急响应的阶段划分、应急响应各阶段的工作内容和要求。
数据中心基础设施运维应急处理的后期处置:包含情况汇报和经验总结、奖惩评定及表彰。
数据中心基础设施运维应急处理的保障措施:从信息资源、人力资源、财力资源、物力资源四个方面,说明为应对突发或重要事件所应配备的资源及相应的管理办法。
附则:包括名词术语和缩写语、预案的管理与更新、沟通与协作、制订与解释部门等内容。
应急管理综合解决方案
应急管理综合解决方案内容
应急管理研讨会
应急管理成熟度评估
采用业界应急管理标准以及最佳实践出发,通过了解郑商所数据中心的应急管理现状,对应急管理的成熟度进行评估,量化应急管理水平,识别差距并提出改进建议。
成熟度评估
对评估结果进行分值量化,图形展示,将评估结果与业界标准对比,识别差距并提出改进建议。
应急管理体系规划
应急管理体系规划以业务为目标,来保障业务的连续性和基础实施运行的连续性。
应急预案建立
应急预案主要内容
业务背景:应急场景跟什么业务相关?业务流程概述,本应急预案处于业务流程什么环节?
启动条件:简单明了说明发生什么故障时需要启用本应急预案,方便用户快速决策。
业务影响:上述故障发生时会影响哪些业务,会影响哪些用户?影响程度如何?
管理预案:本预案是否会触发其他应急预案?其他预案是否会触发本应急预案?
处置流程:应急预案最关键部分,详细描述应急处置流程和步骤。
应急处置流程和步骤主要内容
应急处置流程:当业务不可用时,如何通过技术处置流程,使业务尽快恢复,满足业务RTO要求。这些技术流程包括:技术应急措施、切应急系统、切容灾系统。
应急恢复流程:当业务系统恢复功能以后,需要把业务恢复到正常处理环境中。应急恢复流程包括取消技术应急措施、从应急系统切回生产系统、从容灾系统切回生产系统。
回退方案:应急处理(特别是恢复过程),可能出现关键步骤无法继续,这时候必须尽快回退,保证业务连续性。
应急方案设计
应急预案梳理
从系统可用性的角度进行梳理,全面梳理和识别潜在的故障模式,基于风险量化结果,选取优先级较高的故障模式来制定相应的技术处置措施。
实施应急演练
应急演练的总体目的是保障在重大突发事件出现时,应急处置及时有效,指挥调度迅速有序,信息沟通渠道畅通,信息口径统一、内容准确,尽可能在最短时间内恢复业务正常运行,以达到缩短故障历时,降低业务影响,有效防范和化解业务风险,降低损失的目标。
事件优先级定义
优先级代码定义:
事件影响度用于衡量影响业务的严重程度:
紧急程度决定事件需要处理的急迫程度:
应急演练流程图
应急演练组织架构
应急管理平台
郑商所数据中心应急管理平台对应急管理提供了支撑,跟踪和显示应急演练的主要运行节点,快速查询应急组织架构、联系方式、应急等级定义和操作流程,管理应急预案库。
应急演练实施
郑商所数据中心应急演练实施场景的选择、方案制定、从脚本定义、演练动员和培训、演练实施和总结分析的过程。
应急管理的总结和展望
应急管理通过建立应急框架体系、应急管理综合解决方案和应急演练,从而形成应急预案库,保障在重大突发事件出现时,应急处置及时有效,以达到缩短故障历时,降低业务影响,有效防范和化解业务风险,并且在最大限度范围内减少该风险所带来的损失。
目前郑商所数据中心应急管理的架构、应急综合解决方案和应急演练机制已经形成,应急架构、方案和演练不断优化,桌面推演、模拟环境演练、生产环境演练按照计划在实施,对已经发生的故障提炼出应急场景,对现有的风险进行分析并形成应急场景,进而对应急场景的不断演练,固化成应急预案,从而快速应对可能出现的急紧情况和提高处理紧急事件的能力。
应急管理综合解决方案将在跨部门跨专业间进行,训练不同部门和专业间的协作和配合能力,应对更复杂的问题和事件。应急管理平台将在流程自动控制,和监控系统的联动方面进行优化,使得郑商所数据中心应急管理能力更上一层楼,为郑商所的商品交易业务保驾护航。