重定义业务连续性及容灾系统(BCDR)



  • 随着信息化社会的飞速发展,从人们的日常生活到企业的业务运营,都被日益渗透的信息系统所包围。而近年来,从海啸、地震等大型自然灾害(突发性灾难)到被黑、中毒、系统受损、人为操作失误等软性错误(渐变性灾难)的频繁发生,使人们不得不重新审视以信息系统为核心业务载体所面临的高度风险。然而,社会发展不能倒退,我们也不可能因为信息系统存在巨大风险而就此放弃,只有积极寻找妥善的解决办法,才能确保企业的持续运营能力。因此,构建完善的容灾系统,当务之急。

    灾难重定义

    从广义上讲,任何提高系统可用性的努力,都可称之为容灾。但是,企业在容灾系统设计中一般的选择是业务不宕机,数据实时一致等,它们可以解决站点失效等大事件发生时的业务连续性及数据不丢失。但这只是防御灾难性事件的灾备解决方案。但这只是容灾方案需思考的要求的一部分。随着信息系统普遍成为企业运营的命脉,通过完善的业务连续性运行的保护机制来保证业务的在线性,已得到企业管理者们普遍的认可。然而,影响企业业务连续运行的事件除了大型灾难性事件外,日常的逻辑错误或硬件故障都可能造成企业所不能承受的大灾难事件。
    如广为人知的宁夏银行事件,已做有比较完善的本地数据保护及远程灾备系统,但经不在本地硬件故障及后来人为操作错误所引发的37小时的业务宕机的大型灾难事件;如此案例在我们的生活中经常发生,如某交管局业务系统升级导致一周时间的业务宕机,某北京医院人为错误导致的数据丢失等等,这些事件都清楚的回答IT管理者们,灾难已经不仅仅局限于大的灾难事件,小的逻辑错误及硬件故障不及时处理,也能演变成大的灾难性事件。不仅对企业造成一定损失,也在行业或社会造不良影响。
    所以,一个完善的灾备解决方案既要能确保业务连续性,数据不丢失,同时必须具备一般故障发生后的快速恢复的方法和手段。
    随着信息化社会的飞速发展,从人们的日常生活到企业的业务运营,都被日益渗透的信息系统所包围。而近年来,从海啸、地震等大型自然灾害(突发性灾难)到被黑、中毒、系统受损、人为操作失误等软性错误(渐变性灾难)的频繁发生,使人们不得不重新审视以信息系统为核心业务载体所面临的高度风险。然而,社会发展不能倒退,我们也不可能因为信息系统存在巨大风险而就此放弃,只有积极寻找妥善的解决办法,才能确保企业的持续运营能力。因此,构建完善的容灾系统,当务之急。

    常用数据安全解决方案优劣分析

    企业管理者在数据安全及业务连续性方面做了很多的努力,采用了各式各样的保护手段维护业务连续性运行及数据安全,传统采用的手段如下:

    • 备份系统 — 解决方案数据逻辑错误码
    • 冗余系统 — 确保业务连续性运行
    • 灾备系统 — 防止灾难事件

    传统系统发展于上世纪八十年代,至今已从单磁带机备份、网络备份、SAN备份,以及最新的无应用服务器备份的方向发展。但目前采用最多的是SAN备份,仅仅从提高数据备份的速度,仍然无法脱离早期对备份架构设计的局限,而今天企业的业务系统早已是7x24小时的服务模式,传统备份已经无法达到现今我们对数据备份的要求及数据恢复的目标,主要体现有如下:

    1. 备份窗口,传统的数据备份过程对生产的业务性能影响具大,必须在业务系统访问不繁忙或者周末才能执行备份。
    2. 恢复窗口过长,传统备份的数据需先回复到生产中心,才能恢复业务生产,因此恢复数据直接影响业务系统在线服务的质量。
    3. 数据验证压力,传统备份的数据验证是很大的挑战,无法对已备份的数据进行有效的验证,只有在恢复数据后才能验证恢复的有效性。
    4. 先恢复后验证,当需恢复数据时,只有恢复数据后才能验证是否恢复成功,若发生恢复不成功,则需换更旧一份备份数据进行恢复验证,因此,将导致数据恢复目标RPO不可保证。

    业务连续性实际是阐述的系统的冗余性,如主机本身,冗余CPU、内存、电源、风扇等,系统级的双机等,但是早期受限于存储硬件及集群系统的成本,多数企业的业务系统建设都为双机单柜的部分冗余模式,即业务的生产数据只有一份。因此,要做到系统级的冗余,必须在业务连续性方面的建设中如何实时确保生产数据的多个副本,才能真正意义提高业务系统的连续性运行。
    传统意义上的容灾系统,是防御灾难性事件如地震、火灾、停电等大型事件时,能够在灾备中心恢复生产,统称为容灾系统。此类解决方案固然达到了灾备的要求,但是,很多有灾无备的案例使我们重新认识灾难及如何应对的方法。

    1503171441c900827b5171cbdc.png

    演练是灾备系统可用性验证的有效手段之一,无论是桌面验练、模拟演练还是灾备切换演练,演练实际上有两个目标,其一是验证突发事件发生时,企业的IT部分与相关部门如何协调应对;其二是检验灾备系统的可用性。因此,我们需重新审视演练的方式,而要确保演练达到我们的目的。而我认为灾备系统的可用性最好检验的方法是能够允许随时演练。
    无论灾难事件发生后如何处理,灾备中心已升级为临时生产中心运行业务生产,原生产中心还是要修复,如何让临时的生产中心将业务安全回切到原生产中心,这不仅仅是方法问题,在这个过程中我们必须有具备回切的方法,还需有防止二次灾难发生的手段。
    灾难切换预案的是数据安全的最后一道防线,它的稳定运行直接影响着灾备系统的可用性,在我们日常接受的DPM中,A事件用A预案,B事件用B预案……。因此,对于预案在企业中,谁来承担判断事件的类型?我们能不能用尽量少或一个预案来涵盖所有事件?这使得IT管理者们对于灾备有了不一样的看法。

    灾备技术路线

    灾备系统的容灾技术路线是实现一个灾备系统建立的最为重要的考虑因素之一,这一因素的考虑是否完善,甚至于决定了灾备系统的成败。因此,我们可以看到许多企业在下达了灾备系统建设任务之后,却迟迟无法在技术方案的论证环节上达到统一,换句话说,找到一个完美的技术路线是那么的艰难。容灾技术是灾备系统的核心,从用户切实的容灾系统技术和工程可行性出发,下面我就对构建容灾系统时需要考虑的技术因素进行简单的分析:
    (1)所防范的灾难范围
    也就是明确信息系统需要承受的灾难类型,如系统故障、硬件故障、数据逻辑受损、火灾及地震等各种意外情况所采取的备份、保护方案不尽相同。根据各行业的特点和国际上相关机构的调查,硬件故障、人为错误、软件错误居信息系统故障发生概率的前三位,自然灾害等属于小概率事件,但由于破坏力大,也是灾备系统必须防范的重要内容。
    从宏观上看,现在人们经常将灾难分为自然灾难和渐变性灾难(如人为的失误型故障、黑客攻击、断点等)两种,容灾实现的技术保护手段在抗击这两类灾难时一般是有所区别的。传统的容灾手段一般重点集中在火灾、地震等大型灾难的防范上,防范软件和人为错误等的渐变性灾难大多依赖于备份软件系统,因此,大多数据的容灾系统并不具有涵盖全系列灾难防范的内容。
    目前新兴技术的发展,已经有相对成熟的灾备技术将各类灾难的类型均纳入到防范和抗击的范畴,并且在受损后的恢复技术上也作了极大的改进,能达到瞬间恢复的能力,这一切,都使得容灾技术更为完善和成熟,恢复技术日臻完善。
    (2)容灾系统对企业当前业务的影响程度
    目前很多服务性行业,如银行、医院等都要求其门户系统保证7X24小时在线运行,但在线系统的状况可能略有不同,灾备系统的建设应首先不修改现有生产系统的结构(否则会可能产生对现有系统状态的破坏和增加不稳定因素,导致今后生产系统维护增加极大的难度),其次,容灾系统的实施应采取最为简易和快捷的方式,工程上应具有可操作性、周期的可控性,实施周期要短,这样才能最大限度地减小对原有在线系统的影响,提高容灾系统建设的成功率。
    (3)灾难发生的业务停顿的容忍时间指标
    必须明确当计算机系统发生意外无法工作时,导致业务停顿所造成的损失程度,也就是定义用户对于计算机系统发生故障的最大容忍时间。这也是设计容灾备份方案的重要技术指标。对于容灾系统来说,它除了集群系统之外的其它容灾系统,在灾难发生后都需有一个恢复的过程,尤其远程容灾的宕机时间最长,那怎样来解决企业用户对容灾系统所需的恢复时间呢?RTO是容灾系统恢复时间的衡量指标,而企业对此恢复时间的要求也越来越高,而这种恢复时间都是一般容灾技术或容灾花费开销所不能及的要求。
    (4)数据保护程度
    是否要求数据库可以恢复所有提交的交易并且要求实时同步数据也就是数据的连续性和一致性,决定了容灾备份方案规模和复杂程度的重要依据。传统的容灾技术大多采用的是基于磁盘阵列或应用主机来实现的,因此数据的同步都局限于数据盘的数据同步,同步镜像技术可以达到数据盘的数据同步,异步镜像无法达到数据盘的数据一致性,因此借住于快照技术达到目一时间点的数据盘的同步。但在技术中都无法确保实进运转的在线业务系统数据的一致性。在恢复的可选程度上也有一定的局限,恢复当前发生灾难这一刻的磁盘数据(主要针对大型灾难,渐变性灾难无法恢复),或恢复到通过快照技术所保留的某一时间点版本的数据(主要针对渐变性灾难,大型灾难也能用些方法),局限于快照技术及执行快照执行者(磁盘阵列或应用主机)本身,两快照之间的时间差是不可避免并且无法缩短到企业级用户所期望间隔值。
    (5)技术的维护难度
    由于长期以来,容灾技术的复杂性和高成本性,使得大量的容灾系统建设都呈现出维护难度大、传输故障的防范能力低、灾备演习难度大的特征。因此,选择的容灾技术应考虑到技术实现和管理的友好性和简易性,灾备中心管理人员的本地可自行维护能力是一个重要的因素,这是故障快速响应和处理的一个基础,这样才能使得多极的维护体系更为有效率、处理故障的能力更为强大。
    (6)最为容易忽略的一点,容灾的技术手段是否适合于现有的所有参与系统,能否面向今后可能加入的其他业务系统。
    这一点,成为目前容灾体系技术路线的讨论中最为困扰各方的一个因素。混合系统容灾、开放设备的选择常常使得用户的理想与技术现实产生鸿沟。如果能够在本次建立容灾系统时,采用面向未来的技术,这样就可以形成一次构建,长期受益的良好架构,而且今后的系统改造成本将会十分轻微,达到为全系统服务的长期目标。
    容灾建设的技术要素还有很多,通过宁夏银行等案例更能清晰的解释,在容灾系统规划建设中抓住最为重要关键点及所需考量的主要环节,进行深入而细致的研究,就能够使得用有限的资金发挥更大的能量,达到事半功倍的效果,这也是本文的目的所在。

    原文链接: http://bbs.watchstor.com/thread-216239-1-1.html


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待