应急管理综合解决方案
应急管理综合解决方案内容
应急管理研讨会
应急管理成熟度评估
采用业界应急管理标准以及最佳实践出发,通过了解郑商所数据中心的应急管理现状,对应急管理的成熟度进行评估,量化应急管理水平,识别差距并提出改进建议。
成熟度评估
对评估结果进行分值量化,图形展示,将评估结果与业界标准对比,识别差距并提出改进建议。
应急管理体系规划
应急管理体系规划以业务为目标,来保障业务的连续性和基础实施运行的连续性。
应急预案建立
应急预案主要内容
业务背景:应急场景跟什么业务相关?业务流程概述,本应急预案处于业务流程什么环节?
启动条件:简单明了说明发生什么故障时需要启用本应急预案,方便用户快速决策。
业务影响:上述故障发生时会影响哪些业务,会影响哪些用户?影响程度如何?
管理预案:本预案是否会触发其他应急预案?其他预案是否会触发本应急预案?
处置流程:应急预案最关键部分,详细描述应急处置流程和步骤。
应急处置流程和步骤主要内容
应急处置流程:当业务不可用时,如何通过技术处置流程,使业务尽快恢复,满足业务RTO要求。这些技术流程包括:技术应急措施、切应急系统、切容灾系统。
应急恢复流程:当业务系统恢复功能以后,需要把业务恢复到正常处理环境中。应急恢复流程包括取消技术应急措施、从应急系统切回生产系统、从容灾系统切回生产系统。
回退方案:应急处理(特别是恢复过程),可能出现关键步骤无法继续,这时候必须尽快回退,保证业务连续性。
应急方案设计
应急预案梳理
从系统可用性的角度进行梳理,全面梳理和识别潜在的故障模式,基于风险量化结果,选取优先级较高的故障模式来制定相应的技术处置措施。
实施应急演练
应急演练的总体目的是保障在重大突发事件出现时,应急处置及时有效,指挥调度迅速有序,信息沟通渠道畅通,信息口径统一、内容准确,尽可能在最短时间内恢复业务正常运行,以达到缩短故障历时,降低业务影响,有效防范和化解业务风险,降低损失的目标。
事件优先级定义
优先级代码定义:
事件影响度用于衡量影响业务的严重程度:
紧急程度决定事件需要处理的急迫程度:
应急演练流程图
应急演练组织架构
应急管理平台
郑商所数据中心应急管理平台对应急管理提供了支撑,跟踪和显示应急演练的主要运行节点,快速查询应急组织架构、联系方式、应急等级定义和操作流程,管理应急预案库。
应急演练实施
郑商所数据中心应急演练实施场景的选择、方案制定、从脚本定义、演练动员和培训、演练实施和总结分析的过程。
应急管理的总结和展望
应急管理通过建立应急框架体系、应急管理综合解决方案和应急演练,从而形成应急预案库,保障在重大突发事件出现时,应急处置及时有效,以达到缩短故障历时,降低业务影响,有效防范和化解业务风险,并且在最大限度范围内减少该风险所带来的损失。
目前郑商所数据中心应急管理的架构、应急综合解决方案和应急演练机制已经形成,应急架构、方案和演练不断优化,桌面推演、模拟环境演练、生产环境演练按照计划在实施,对已经发生的故障提炼出应急场景,对现有的风险进行分析并形成应急场景,进而对应急场景的不断演练,固化成应急预案,从而快速应对可能出现的急紧情况和提高处理紧急事件的能力。
应急管理综合解决方案将在跨部门跨专业间进行,训练不同部门和专业间的协作和配合能力,应对更复杂的问题和事件。应急管理平台将在流程自动控制,和监控系统的联动方面进行优化,使得郑商所数据中心应急管理能力更上一层楼,为郑商所的商品交易业务保驾护航。