- 96.50 KB
- 2022-08-30 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
111计算机系统重大突发性事件应急预案第一章计算机系统重大突发性事件应急预案1.说明华夏人寿保险股份有限公司信息系统应急方案是为了确保当华夏人寿关键系统发生故障或供应链因以外中断时,关键业务仍可继续运作,而预先制定和准备的一系列操作方案。本应急方案并不能代替解决问题的工作,它只提供一个最低可接受的服务水平,以便有充足的时间去修复出现故障的系统。其价值在于,计划和方案在危机出现前就已经制定好,能最大限度地争取时间。通过应急方案主动的有预见性的,而不是被动地仓促地对紧急情况做出反应。2.应急方案的目标/范围2.1目标与范围(1)业务连续:确保华夏人寿的日常业务能够连续运行,不出现中断。在某些系统或子系统功能失效的情况下,关键系统不至于瘫痪,主要功能不会丧失。(2)降低风险:应急方案必须采取各种措施,把由于问题而产生的风险降到最低。(3)减少损失:对于可能产生的风险,采取技术和管理方面的补救措施,尽量将各种损失减少到最低。(4)避免灾害:尽量避免因为系统故障而产生灾害的高危系统造成的直接或间接影响,确保人民生命财产安全和社会稳定。目前,华夏人寿保险公司基于计算机和网络的业务处理系统主要包括核心业务系统、财务系统和办公系统。2.2关键业务系统描述核心业务系统业务生产系统配置1台HPrp8420服务器和1台rp7420,rp8420和rp7420分别划分两个硬件分区,一个硬件分区配置是4CPU、8G内存作为业务系统的数据库服务器,另一个硬件分区是4CPU、4G内存作为业务系统的应用服务器。一套磁盘阵列EMC\nCX500,作为核心业务系统和财务系统的硬件支撑平台。另外配置一台HPrp3410作为核心业务系统及财务系统的测试服务器,运行非关键的开发和测试工作。财务系统财务系统安装在1台HPrp4440服务器上,同时与核心业务系统共用一套磁盘阵列EMCCX500。Rp4440也划分两个硬件分区,一个硬件分区配置是2CPU、4G内存,运行财务系统的数据库,另一个硬件分区配置是2Cpu、2G内存,运行财务系统的应用程序。核心业务系统的服务器与财务系统的服务器做双机互备,平时业务系统运行在rp8420上,财务系统运行在rp4440上,当一台服务器的一个分区发生故障时系统切换到另一台服务器的相应分区上运行。3.应急团队组织结构应急方案都是在发生灾害的非常时期进行。因此,充足的人力资源配备和明确的责任分工显得尤为重要。如果没有一个组织有序的团队,很难保证灾难发生时能够在既定时间内完整、成功地实现灾难处理和业务恢复。从华夏自身来看,其实施应急的团队组成不仅要横跨各个部门,还要纵向包含省分和市分等多级机构。因此,合理地组织华夏各级机构的各个业务部门的人力资源,根据灾难恢复方案的需要明确各个团队成员分工,是保证应急方案顺利实施的基础。更重要的一点是,将各个组织部门的管理层纳入应急实施团队或至少得到他们的充分承诺是整个应急系统成功的关键因素之一。这里需要说明的是:由于灾难的偶然性和突发性,应急团队并不需要全职地投入到应急工作中。实际上,整个团队中除了应急实施负责人和协调人之外,其他成员在日常工作中都是兼职地加入应急团队,其担负的任务和责任也只是其日常工作地一部分而不是全部。但是,整个应急团队需要在建立和修订应急方案时全职地投入应急工作,这些工作至少持续到整个方案测试结束,以保证团队对应急方案的实施能力。3.1团队负责人\n根据华夏的组织结构情况,设立应急负责人组成整个应急系统的最高管理层。应急负责人是整个应急系统的最高负责人,是具体实施应急的领导者。3.1.1作用应急负责人全面负责整个华夏的业务持续和灾难恢复工作,包括方案制定、人员组织沟通、方案演练、文档和测试工作。应急负责人的主要作用就是保证华夏能够在发生灾难的情况下保持关键业务的持续运行,将灾难损失降低到最小程度。3.1.2职责l保持和本级高级管理层的联络;l具体负责应急方案的制定和实施;l保证所负责的区域内的灾难恢复和业务持续;l共同保持整个华夏范围内的应急知识普及;l协同华夏各部门的应急工作。3.2应急协调人3.2.1作用具体联络相关小组实施应急负责人下达的各项任务,协调上下级之间和各部门之间的联络和协同,并且他们还要作为制定和实施应急方案的联络人。3.2.2职责l组织和协调所负责区域的应急相关的各项工作;l对本区域的人员进行相应的应急知识培训;l组织各部门的应急演习和评审;l联络和沟通本区域的各个部门以及外部供应商和服务商。3.3灾难恢复小组灾难恢复小组是应急方案的具体执行者,负责执行和灾难恢复相关的具体职能。根据各项职能的要求,每个小组大约包括3到5名成员,由组长负责本组的工作,并且在每个组中还要有一个候补的小组负责人。各个小组都需要由应急中心和所支持的省公司的相关人员共同组成,在灾难发生时共同利用应急中心的资源完成灾难恢复和业务延续。\n各个小组在应急负责人的领导下进行工作,通过应急协调人和各级部门之间进行沟通。根据实际工作的需要,可以对小组的工作进行具体的详细划分,或者增加新的职能小组。应急负责人、协调人和各小组的组长一起构成整个应急团队的管理层,由他们负责指导华夏应急方案的制定和实施。以下具体描述各小组的职能和组成。3.3.1设施恢复组设施恢复组负责监控本区域内所有的物理设施,包括平时的预防工作和灾难发生时的损失评估、保护、维修和转移,以及在应急管理层的指导下,进行灾难地和应急中心之间地物理设备切换。根据其职能,设施恢复组主要包括以下人员:l设施规划和运行维护人员;l资产管理和审计人员l供应商和服务商联络人员l设施相关的技术专家l安全管理人员l法律和保险管理人员3.3.2行政管理组行政管理组负责为其他职能部门作好所需的后期保障工作,包括运输、安全保卫、资金、人员调配和公共关系等。行政管理组主要包括以下人员:l具有足够资源调度授权的经理;l运输、财务、人事、安全保卫、公共关系相关人员;l外部服务商、供应商联络人员;l行政助理3.3.3系统恢复组系统恢复组负责保证支撑关键业务应用的平台系统的恢复,并及时提供给相关的业务部门。系统恢复组主要由以下人员组成:l系统管理员l供应商联络人员3.3.4通讯恢复组\n通讯恢复组负责维护和保障应急方案中的通讯需要,包括语音通讯和数据通讯,尤其是灾难恢复所需的指挥通讯和恢复关键业务应用所需的数据通讯。通常通讯恢复组需要借助第三方的网络供应商来完成所需的通讯保障工作。因此,通讯恢复组包括:l网络及通讯系统维护人员l网络服务供应商联络人员;l设备供应商联络人员;3.3.5用户联络组用户联络组负责应急团队和各业务部门的沟通和联络,以使应急团队及时了解详细的灾难影响以及来自业务部门的需求,同时,也是业务部门了解应急团队的灾难恢复工作进展情况,帮助双方更准确地进行相应的决策。用户联络组人员组成:l各业务部门代表l应用系统专家3.3.6数据控制组数据控制组负责应急的数据备份和恢复工作,包括制定相应的备份计划、恢复优先级的评估以及恢复方式,并在灾难发生时负责实施相应的数据恢复工作。数据控制组由以下人员组成:l数据控制经理;l数据备份管理人员;l备份介质管理人员;l原始单据管理人员;l数据录入组织人员;3.3.7应用恢复组应用恢复组负责业务应用系统的恢复,这个小组和系统恢复组、数据控制组一起完成业务支撑应用系统的恢复工作,实现业务的延续运行。应用恢复组的成员主要有:\nl应用系统管理员;l应用系统开发商维护人员;3.3.8配合协作组配合协作组负责应用系统发生问题时,和其它恢复小组一起完成业务支撑系统的恢复工作。主要成员根据业务系统影响的范围而定,例如在与分公司、支公司或者营销部的某些业务受到影响时,则需要当地技术人员的配合,一同完成业务系统的恢复工作。4.关键业务监控技术平台针对华夏人寿业务系统技术新、规模大、可用性要求高、管理任务重的特点,华夏人寿除了配备了高素质的技术支持团队,而且采用了完整的数据库管理解决方案,能够完全满足寿险核心业务系统管理需求。5.应急处理流程应急处理流程分为事件级别判定、事件处理及升级程序。5.1事件级别判定事件级别定义:序号事件级别颜色标识故障现象描述1一级故障红色系统运行中断,对用户业务的运行有严重影响。2二级故障橙色系统中重要功能受损、主要性能指标严重下降,影响和限制了部分业务运营。3三级故障黄色在系统主要功能及性能指标运行正常的情况下,系统部分功能与性能受损。对于华夏人寿重要的核心业务系统、财务系统,主机、数据库、网络系统有着至关重要的作用,根据事件级别的定义,主机、数据库、网络系统的事件级别判定标准如下:\n事件级别颜色标示故障现象描述主机系统数据库网络一级故障红色系统运行中断,对用户业务的运行有严重影响。核心业务主机瘫痪。业务数据库挂起或者无法正常使用。核心交换机、骨干网络线路不能使用。二级故障橙色系统中重要功能受损、主要性能指标严重下降,影响和限制了部分业务运营。核心业务主机运行缓慢、出现严重报警信息或硬件错误。核心数据库响应缓慢,部分应用出现数据不一致性等错误。交换机或路由器性能下降,或者网络带宽使用率超出承载能力。三级故障黄色在系统主要功能及性能指标运行正常的情况下,系统部分功能与性能受损。核心主机基本上正常工作,但存在硬件或系统级错误,使得主机系统性能有所下降。数据库工作基本正常,但是某些非重要数据存在问题或者运行不够稳定。网络基本正常,但是出现网络数据偶尔停顿等现象。四级故障蓝色在系统无故障或不影响用户业务运行的情况下,用户对系统的功能、安装、配置、性能优化或使用方面提出技术咨询服务要求。主机系统运行正常,但是在主机系统参数配置、或性能优化方面需要改进。数据库系统运行正常,需要对数据库系统配置参数进行调整。网络运行正常,对网络链路使用或设计方面有待改进。5.2事件处理程序类型事件预防措施紧急处理程序\n事件级别机房环境机房强电停电,停电时间超过UPS备援时间二级定期对UPS运行状况和电池进行检测,增加UPS待机时间关闭非关键业务服务器,与相关系统管理员联系,做好系统关机准备。机房环境空调上水和凝水管小面积漏水,不超过单个机房面积的1/3,没有淹及强、弱电模块,不影响主机和网络设备的运行三级安装防漏水报警系统,加强机房环境巡检,做好机房顶层的防水工作立即联系物业公司吸扫漏水,切断水源,联系相关厂商查找原因和解决问题。机房环境机房漏水,漏水面积超过单个机房面积的1/3,水深已经引起地面强电短路、弱电模块不能正常通信一级安装防漏水报警系统,加强机房环境巡检,做好机房顶层的防水工作立即联系物业公司吸扫漏水,切断水源,联系相关厂商查找原因和解决问题。主机系统业务生产主机、财务生产主机运行主机宕机二级施行双机热备,加强系统巡检,加强数据和系统备份立即与集成商、厂商联系报告故障,并手动切换到备份主机,启动备份主机上的相关服务主机系统磁盘阵列宕机一级加强系统巡检,与厂商联系定期进行诊断,加强数据和系统备份迅速与集成商、厂商联系分析原因和解决问题主机系统邮件系统故障,服务不能在短时间内恢复二级加强系统备份,加强系统巡检,提前发现并解决问题,增加硬件冗余措施立即通知受影响的用户,联系软件厂商进行紧急修复。网络系统与分公司的单条线路出现故障,处理时间超过2小时三级考虑硬件冗余,考虑线路冗余,加强日常监控立即与电信运营商、系统集成商联系分析原因和解决问题网络系统二级考虑硬件冗余,考虑线路冗余,加强日常监控\n分公司与中心支公司连接的分公司汇聚端出现故障,影响分公司与所有下辖机构的通信立即与电信运营商、系统集成商联系分析原因和解决问题网络系统分公司与中心支公司相连的单条线路出现故障,处理时间超过8小时三级考虑硬件冗余,考虑线路冗余,加强日常监控立即与电信运营商、系统集成商联系分析原因和解决问题网络系统总公司广域网汇聚端出现故障,影响总公司与所有分公司的通信一级考虑硬件冗余,考虑线路冗余,加强日常监控立即与电信运营商、系统集成商联系分析原因和解决问题网络系统核心路由器或核心交换机单台故障二级考虑硬件冗余,加强日常监控,加强数据和系统备份立即与集成商联系,并手动切换到备份设备网络系统2台核心路由器或2台核心交换机都发生故障一级考虑硬件冗余,加强日常监控,加强数据和系统备份立即与集成商、厂商联系,借用设备暂时恢复服务,并立即查找原因并对设备进行修复。安全事件网络遭受拒绝服务攻击Internet出口堵塞二级安装防火墙修改外网IP地址,立即联系集成商、厂商进行分析和处理内部网络遭入侵,内部机密资料泄露一级安装防火墙加强安全意识教育立即关闭遭受攻击的端口,备份重要日志文件,并联系集成商、厂商进行分析和处理5.3事件处理时限和升级程序\n时间一级故障二级故障三级故障四级故障30分钟相关业务部门、主管高级工程师相关业务部门、(分公司)主管工程师(分公司)主管工程师(分公司)主管工程师1小时信息技术部门领导分公司)主管高级工程师--4小时分管信息工作的公司领导信息技术部门领导、(分公司)信息管理领导(分公司)主管高级工程师-8小时公司领导信息技术部门领导-(分公司)主管高级工程师24小时保监会分管信息工作的公司领导信息技术部门领导、(分公司)信息管理领导-48小时-公司领导--72小时--信息技术部门领导信息技术部门领导、(分公司)信息管理领导第二章信息系统重大事项汇报制度一、概述本制度定义了部门工作中,可能引起或已经产生严重不良后果的事项:包括重大项目和重大事故,统称为重大事项。本制度针对不同的情况规范了对此类事项的汇报过程和实施、处理途径。\n目的l制订本制度的目的是:改善部门内部沟通机制,保证部门负责人对重大事项及其可能产生的不良影响有充分的了解。并在此基础上充分运用其岗位职能,协调组织重大项目的实施工作和重大事故的处理工作,从而最大限度的避免潜在隐患的发生、降低事故造成的影响。重点l重大项目的汇报实施制度重点在于实施前的周密计划和严谨设计、实施过程中的科学控制和严格测试。l重大事故的汇报处理制度重点在于汇报过程的及时、汇报内容的准确完整、处理过程的高效率和高质量、事故处理完成后的及时总结。二、重大事项的定义重大事项指部门日常工作中,可能引起或已经产生严重不良后果的事项,它包括重大项目和重大事故。(一)重大项目重大项目指具有较高复杂性的、实施细节比较陌生且有一定难度的,影响面较大的并且因为上述特点而存在较大的实施风险的工作。重大项目包括但不仅指如下工作:(1)核心业务系统更换或核心业务系统中重要功能的开发、改造:系统整体更替或改造、一级模块的整体改造(如保全流程改造),公用模块的开发、改造(如统一核保)或其他重要项目。(2)重要系统的硬件平台迁移,操作系统、应用服务器、数据库管理系统产品更替、版本升级或为了调整现有系统性能而修改系统配置和参数。(3)比较复杂的新型产品上线:现有系统不能完全支持,需要进行较大规模修改的新型产品(如万能险、投资连结险)。(4)办公系统、外挂业务系统的开发或重大改造。(5)对公司经营具有重要战略意义的项目(如数据仓库,CRM,CallCenter)。(二)重大事故\n重大事故在部门日常工作中因为各方面的原因造成或可能造成严重不良影响的事件。重大事故包括但不仅指如下情况:(1)生产系统数据库或应用服务器非正常宕机:因为系统硬件故障、系统软件错误、恶意攻击或管理员操作失误导致系统较长时间(定义)无法正常使用。(2)生产系统数据严重错误:因为业务部门提供的数据错误、上传数据失误、手工操作数据失误,程序逻辑错误等原因造成的大量系统基础数据或业务数据错误,严重影响正常的业务结果(如大量的保单打印错误、收费、红利、生存金数据错误)。(3)公司网络大面积瘫痪或阻塞,严重影响生产系统、办公系统的运行:因为网络提供商的责任、主干线路或节点设备的物理损坏、恶意攻击等原因造成的公司网络的大面积瘫痪或阻塞导致生产系统、办公系统较长时间(定义)不能正常使用。(4)公司电脑系统的安全正在或可能受到严重的外来侵害:公司计算机系统自外部被攻破,遭到或即将遭受严重破坏。恶性计算机病毒在公司计算机系统内出现,已经或可能严重破坏公司计算机系统。(5)贵重设备、重要数据损坏或遗失。(6)各种原因造成的设备损坏或遗失、各种原因造成的备份数据损坏或遗失。三、重大事项的汇报(一)重大项目的汇报重大项目的汇报过程也是项目实施的前期准备过程。部门负责人指定的项目负责人有义务通过书面或当面报告,让部门负责人了解整个项目的内容、复杂程度、可能存在的风险等情况。必要时应该编写《项目可行性分析报告》。部门负责人确定某项目为重大项目后,项目负责人应该编写《项目计划书》。《项目计划书》应包括项目实施的目标,责任分解表,项目进度表,项目实施中各项责任的负责人,项目实施各阶段的关键指标及检测要点。项目负责人在编写完《项目计划书》后应该及时发送给部门负责人确认。\n项目负责人根据《项目计划书》和项目具体情况安排相关人员编写项目实施方案和检测方案,对于项目实施一旦失败可能造成业务停顿等严重后果的项目还应编写《项目实施过程应急预案》。对于软件开发项目,实施方案指《需求规格说明书》和《概要设计》,检测方案指《内部测试计划书》;对于其他项目应该根据具体情况编制实施方案和检测方案。实施方案、检测方案和《项目实施过程应急预案》经部门负责人确认后,项目进入实施阶段。(二)重大事故的汇报当部门工作因为各方面的原因,不可避免的发生了重大事故时,部门内的每一位员工都有义务及时将事故原因和严重程度向部门负责人直接汇报。以便其对内协调相关资源及时解决问题,减少损失,杜绝后患;对外澄清事实,明确部门间责任,争取主动,体现部门整体工作效率。对于明显属于第二节中所列举的重大事故和其他可以肯定会产生严重不良影响的事故的必须在第一时间直接汇报;对于无法直接确定为重大事故的,应先向相关人员报告,确定为重大事故后再汇报。对于尚未造成严重影响或错误正在发生的事故,应该先设法阻止不良影响的蔓延,然后汇报,汇报后再设法彻底解决问题;对于已经产生严重后果的事故,应该在第一时间直接汇报,汇报后再设法挽回损失、杜绝后续影响。四、重大事项的实施、处理(一)重大项目的实施重大项目实施方案经部门负责人确认后,项目负责人应该严格按照《项目计划书》组织相关人员开展项目实施。每一个项目参与成员应该严格按照实施方案完成自己的各项工作任务,对于需要检测的部分应该按照和检测方案仔细检测。项目责任人应该定期向部门负责人或其指定人员汇报项目进展情况,如果项目实施过程中遇到困难应该及时向部门负责人汇报。\n项目在实施过程中如果发生了影响公司正常运做等情况时,项目责任人应该依据《项目实施过程应急预案》采取有效措施及时消除不良影响。无法及时消除影响的,应该参照本制度中关于重大事故的规定进行处理。项目实施完成后应该报告部门负责人,并对项目实施后产生的问题做及时的处理。(二)重大事故的处理部门负责人接到重大事故的汇报后,对内应该根据事故的严重程度以及相关人员的建议,指定对该事件处理的第一责任人、安排处理方案、确定处理进度表、监督处理过程;对外则根据具体情况履行其对外责任,如澄清事实,明确部门间责任,协调必要的外部资源等。事故处理完毕后,如有必要应该总结经验,有针对性的制定相应制度,避免类似事故再次发生。参与处理重大事故的人员在第一责任人的安排下,和相关人员一起(包括各厂商的技术支持人员)落实处理方案,及时汇报处理进度和结果,及时反映处理过程中遇到的困难。事件处理完毕后,有关人员应该总结经验,因为人为原因导致错误的有关人员应该设法改进工作方法(可能是个人的工作方法,也可能是团队的工作方法),杜绝事故再次发生的可能。由于重大事故的处理要求较高的时效性,因此事故汇报、处理过程中不要求形成书面文档,如果确有必要可以在事故处理完成后在《事故处理总结报告》中说明。