编者按:本文为“千字千金!中国首届灾备行业征文大赛”参赛作品,本文作者是一对父女,父亲为知名IT厂商客户服务总监,女儿为在校大学生,从一名乙方技术的角度,介绍了灾备演变的历程,这些内容,不仅涵盖了灾备技术的发展,也有一些相对应的解决策略。以下为文章正文。
有些事是令人憧憬的,雨夜读书便是一例。窗外雨潇潇,灯下书香飘。不求浪漫,只为心闲,为日间忙碌后的那份安适与恬淡。可北京的雨越来越珍贵了,常常一连几个月不见雨水。南方雨水充沛,可以去江南,上海南京都好。
这日,商旅上海,恰逢雨天。有意早起,在陆家嘴一家咖啡馆中独坐,边喝咖啡,边读新闻,享受沪上雨天的闲暇时光。不久,一位学者气质的男士进门来,目光偶然对视时,竟然是位熟人。我赶忙起身打招呼,口称周总。自然的世界很大,人们都想去看看。人间的世界太小,时常不期而遇。
周总如今自己创业,之前是一家大型外资银行南宫NG·28中心的总经理,在金融电子信息领域是位具前瞻眼光的实干家,职业生涯伴随着国家金融信息电子化的发展与技术进步,是南宫NG·28安全、灾备行业的先行者。多年间,他甲方、我乙方,一起经历过几次险情,也建立了彼此信任的工作友谊。正巧我在写一篇南宫NG·28安全与灾备方面的稿子,一番寒暄后我们就在咖啡馆里聊起这个话题。
我先开场的,抛砖引玉。我说:“十几年前,国家就有标准,对南宫NG·28中心的灾备技术做了规范性指引,记得是《信息系统灾难恢复规范》。规范明确了四种方式:冷备、暖备、热备和双活。四种方式分别对应无设备的临时搭建、手工切换方式的主备中心、自动切换的主备中心,以及负载均衡方式下的双活中心。具体选哪种方式取决于业务需要和财务预算。”
周总插话道:“国家标准是南宫NG·28安全大厦的基石。要认真看,照着做,当然也要与时俱进。”
我接着说:“南宫NG·28是组织的血液。灾备忙什么?南宫NG·28是关键。”
“南宫NG·28安全有两个含义:一是南宫NG·28本身的安全,二是南宫NG·28防护安全。”周总打断我,“南宫NG·28本身的安全涉及加密、解密、保密、身份认证、南宫NG·28完整性等技术。南宫NG·28防护安全涉及磁盘阵列RAID、备份和容灾技术。”
我喝了口咖啡,接过话茬:“加密、解密、认证这些理论还是留给数学家和大学教授吧。灾备最前沿、最有实际价值的是南宫NG·28中心。南宫NG·28中心更侧重南宫NG·28备份和容灾实践。”
周总点头,望向窗外说:“是的。把成熟技术用好最有现实意义。”
我问道:“您是这方面的专家,见多识广。可否梳理?”
周总往椅背上靠了靠,目光依然望着窗外,若有所思地说道:“我把过往的南宫NG·28防护技术架构分成四代。划代的标准对应着南宫NG·28存储设备的技术发展。”
我说:“那就先从第一代开始谈?”
第一代灾备
周总说道:“第一代灾备方案没有专用的存储设备,南宫NG·28保存在主机的磁盘里,备份到磁带中。磁带是南宫NG·28防护的关键载体。人们开玩笑说‘命悬一带’。”
【第一代灾备故事:火灾中抢救磁带的年轻人】
周总大学毕业后在一家国有银行的省行工作。一天,机房电路短路,引起火情。人们慌忙外逃,唯独一位年轻人逆着人流往里跑,冲进机房,抱着一筐磁带撤出去。事后,这位年轻人因抢救国家财产受到表彰。表彰会上,他说:“一旦机房不幸焚毁,我们可以凭这些磁带里的南宫NG·28恢复业务系统。”
几年后,这位年轻人因工作出色职务晋升,成为那家银行全国最年轻的信息科技处副处长,并主持处里工作。据说行里为了让他主持工作,有意没调派正处长。
当年的那位年轻人就是现在坐在我面前的周总。这故事我是从别人那里听来的。周总告诉我:“表彰会后,行领导说南宫NG·28丢不起,更不想小周有闪失,南宫NG·28安全不能以人员不安全为代价,让我们多买些磁带,备两份儿,分放两栋楼,同时研究新的灾备方案。”
第二代灾备
我说:“专用存储设备的出现用不着您冒生命危险了。”
“存储个头比主机还大,即便想搬也没人能搬动。”周总一笑,“南宫NG·28防护安全技术发展到第二代,专业存储设备不仅把南宫NG·28的保存和访问从主机中独立出来,而且内部的重要部件都是冗余设计,可靠性高多了。”
我说:“但不可奢望100%的可用率。您给电视台准备公告的那件事儿,我印象深刻。”
【第二代灾备故事:给电视台的新闻稿都准备好了】
最初认识周总时,我们两家公司关系属于客户-厂家性质。我在一家IT厂商供职,他当时担任一家国有银行某省分行的信息科技部总经理。他们总行已经完成了业务南宫NG·28上收,建立了全国集中的南宫NG·28中心,省分行的前置机支撑省域内营业网点、ATM机和POS机等业务。
一个周日的下午,前置机中的存储设备发生了宕机,好在当时营业网点的业务服务时段临近结束,对网点的影响程度相对小一些,但该行全省范围内的ATM机、POS机都不能使用了。情况紧急,人员备件同往。我们到达现场时,周总已经等在楼门口,神态镇定,表情凝重,像是盼等援军的将军。镇定是为军心稳定,凝重只因战事紧急。
故障很快查明了,存储设备中冗余设计的一对板卡先后失效,中间间隔几个小时,第二块板卡失效后设备宕机,南宫NG·28访问中断。更换部件后,设备硬件很快恢复了,接着是文件系统、南宫NG·28库管理系统完成一致性校验和修复,最后业务系统恢复了。至此未完。由于异常宕机,多个RAID盘组需要重建(“rebuild”)。重建由人为发起,由存储后端自动完成,优先级低于前端I/O访问,耗时长。在RAID盘组重建过程中,人们心里不踏实,担心重建异常突然影响业务系统。除非重建成功完成,否则紧急状态不敢取消。感觉时间过得太快,网点开门营业的时间正在临近,重建还在进行……
按照规定,营业网点不能正常提供服务时,银行需要提前向社会公告,避免因不安情绪引发挤兑或者其它混乱。客户和厂商双方人员一直呆在监控室里,我没留意周总何时离开的,他回来时手上拿着一页纸。那是准备发给电台、电视台的公告。他要在预设的最后时点发出。黑色的文字,红色的公章,纸张很轻,心情很重。
在大地迎来黎明的曙光时,我们也迎来了盘组重建完成、一切恢复正常的幸福时刻。公告没有发出,网点已经营业。我走出大厦,迎着明亮的阳光,没有兴奋地如释重负。望着院外车水马龙的街道,我不由自主地举臂伸腰,消解疲劳。加之稍后开始的根因分析,我连续二十多个小时无眠无食。厂家犹如此,客户何以堪?
虽说往事如烟,但至今更加认为:有备无患,方为上策。我在纸上写下两行字,边递边说:“这是我在省行故障排除后的那天晚上写下的句子,也是我的向往。”
周总看后点点头,说:“用在南宫NG·28安全与灾备上挺合适。令人向往的境界啊!”
第二代灾备方案的关键是存储设备。通过一系列的针对性设计,比如板卡冗余、RAID冗余盘组、高速缓存CACHE的电池、冗余电源模块,以及专用的存储操作系统等,存储的南宫NG·28可用性是非常高的。在维护达标的情况下,有的厂商还承诺南宫NG·28100%可用性。但这一代灾备方案难以实现完全的业务连续性。上文前置机的故障,既有偶然性,又有必然性。想消除这种必然性,有两大障碍。一是硬件,有时冗余部件未及维修双失效或者某些部件不冗余;二是微码(固件),冗余部件之间的调度和协调机制失灵。面对这两座大山,单机方案几乎不可能翻越了,解决的希望寄托在双机上。
第三代灾备
此处请允许我先做个科普。在南宫NG·28容灾领域有两个重要的指标:恢复点目标RPO (Recovery Point Objective)和恢复时间目标RTO (Recovery Time Objective). 前者讲的是服务恢复后,恢复得来的南宫NG·28所对应的时间点。一个业务系统往往有很多南宫NG·28,可用的南宫NG·28需要具备一致性。也就是说,所有南宫NG·28都必须是某个时刻的“快照”。否则,南宫NG·28就可能因为不一致而不可用。但南宫NG·28的备份和传输需要时间,实时南宫NG·28与备份南宫NG·28之间有个时间差。这个时间差就是RPO. 如果备份南宫NG·28是在中断时刻之前15分钟的完整备份,RPO就是15分钟。而RTO讲的是企业可以容许服务中断的时间长度。如果灾难发生后30分钟便需要恢复,RTO就等于30分钟。
聪明的读者已经明白,这两个指标越小越好,最好都为零。确实如此,实际困难在于灾备预算多少。预算不只包括搭建灾备环境所需要的一次性投入,还包括确保南宫NG·28同步所需要的网络传输费用、人员管理、维护费用等。RPO和RTO越小,预算越大。周总单位当时前置机就只有一台存储设备,一旦发生故障,RTO就失控了,时间长得令人煎熬。
我问周总:“前置机系统故障后,听说启动了紧急采购。”
“是的。我之前打报告申请存储双机,预算一直没批。那件事之后,很快就批下来了。当时预算紧张,砍掉了其它项目。”周总道,“吃一堑,长一智。行里在南宫NG·28安全及防护的认识方面上了一个台阶,甚至开会汇报的次序都做了调整,行领导要优先听南宫NG·28安全方面的内容。”
我问:“后来呢?”
周总:“后来上了存储双机方案,加强了故障监控,之后多年没再出过险情。”
再后来,我们两人的工作都有变动。我去了另外一家IT厂商,周总去了一家大型外资银行的南宫NG·28中心,担任总经理,手下几百人。这家银行的南宫NG·28防护已是第三代存储技术。设备是从我当时供职的那家公司采购的,俗称“存储双机”。还建立了同城灾备中心,一旦生产中心的南宫NG·28不可用,业务系统可以切换到同城灾备中心的设备上继续运行。
第三代灾备的技术先进程度,远非第二代的单机架构可比。大型银行客户或者业务关键的其他行业客户不仅建立了两中心,还建有异地灾备中心,俗称“三中心”。同一份南宫NG·28同时有三个备份。万一发生诸如地震等重大灾害,即使同城的两个中心受损严重,但远在异地的灾备中心还有一份南宫NG·28。可谓高枕无忧了。
绝对的安全是没有的,只是遇险的概率大小。周总的南宫NG·28中心“存储双机”方案虽然RPO为零,但RTO会达到一个多小时,因为其中涉及服务器、网络、业务系统等一大堆的切换,文件系统需要装载(“mount”)备份卷。这一个多小时内,业务系统不可用。实际运行中,如果不是遇到火灾、供电异常或者建筑物损毁一类大的事故,而仅仅因为存储设备故障就切换到灾备中心,这还是很令决策者纠结的。毋容置疑,决策者主观上还是希望尽可能在无需灾备切换的情况下排除险情,这样对业务系统的影响最小。
【第三代灾备故事:报功与报喜】
事有凑巧,周总的南宫NG·28中心遇到过“存储双机”架构中一台存储设备持续告警,一个物理盘柜中几十块磁盘都在报错,好在业务系统仍可正常运行。工程师们忙了两天,险情未排除。
公司派我到现场全权指挥并协调国外研发中心的专家支持。周总很谨慎,叮嘱我任何进展先向他通报,不要越过他报给他们的中国总部。故障发生第五天时,出现转机,异常的磁盘仅剩两块。笼罩人们心头多日的雾霾开始散去,疲惫的脸上有了笑容,沉闷的耳畔传来笑声。未到奔走相告时,已见喜鹊正飞来。
我分别向周总和我公司总部报告了最新进展。不久之后,被周总叫去谈话。本以为是谈下一步安排,不成想被劈头盖脸地指责了一顿。我一头雾水,不明就里。原来,周总认为故障没有完全消失,原因没有查明,向其总部汇报时机不成熟。偏偏他们总部的领导获知了进展情况,反过来向他核实。总部领导的突然过问,令他被动和恼怒,甚至推测我公司存在越级汇报问题,于是诘问我是否“急于报功”。
我猜测有人并无恶意地传播了消息。面对盛怒的周总,我不急不缓地说:“先前我已向公司的有关同事强调了您的嘱咐,不可以越级报告贵行总部。我相信不会有人故意违反,你我分别查查实情。报功的可能性没有,因为没有功劳可报。但人们愁闷了多日,不排除有人急于报喜的可能。”也许误解消除了,也许不快已过去,此话一出,周总便平静下来,换了话题。后来事情彻底解决了,业务系统未曾切换。自此之后,与周总的工作友谊加深了,遇有双方会议,他都指名邀请我参加。
从此事的经过可以知道,业务系统可用率非常重要,时刻耿耿在怀。遇有设备故障,上上下下都很关注,心情难免紧张,焦虑也属正常。焦虑缘于系统瘫痪的严重后果。知名企业的IT系统宕机事件时常见诸报端。2011年,韩国农协银行系统瘫痪,服务中断了三天,南宫NG·28丢失严重。2016年达美航空公司六个小时的宕机造成了一亿多美元的成本损失。即使在云技术时代,依然难以避免。2016年、2019年阿里云的“I/O不响应”影响大片地域。IT系统的脆弱性令人心悸,业务系统的可用性高度敏感。
正因如此,灾备切换时常面临两难选择:切换不切换都担心。一个多小时的RTO令南宫NG·28中心的切换决策犹豫不决,不到万不得已,不愿下达切换的指令。症结在于RTO仍是灾备架构的软肋,要克服就要等第四代灾备问世了。
第四代灾备
当第四代灾备技术问世后,我最先介绍给周总。被称为“双活存储集群”的第四代技术容忍整台存储设备宕机,业务系统不受宕机影响。跨同城两南宫NG·28中心的存储集群可以做到存储设备级别的“双活”(active-Active)及负载均衡,通常也配置主机集群,存储设备宕机对业务系统是透明的,RTO接近为零。内置于存储设备之内的高性能、高弹性、自动化、一体化的南宫NG·28复制技术是当今最先进的灾备技术架构和方案,是南宫NG·28中心关键业务系统的福音。
工欲善其事,必先利其器。周总长期在南宫NG·28中心工作,深知先进灾备技术对业务系统暨银行生产安全的重要性。在其积极推动下,他们中心成为第四代灾备技术的早期客户之一。灾备演练完全自动化,系统运行基本没感知。关键业务系统受惠于最可靠的灾备架构和设施,宕机风险远去了。
灾备对策
外面的雨依然下着,我们的话题继续聊着。周总说:“自从上了第四代灾备,多年来从未有过的踏实。那种感觉棒极了,局外人很难理解。”
我说:“一切就完满结束了?”
周总:“不会。”
我说:“还有什么挑战?”
“有些想法。不是学术,纯属聊天。”周总接着说,“可能遇到的一些风险和艰难包括国际禁运、自然灾害、人为破坏、设备故障、供电故障、网络故障以及误操作。”
我问道:“有什么建议?”
周总略一停顿,说道:“这几类风险成因不同,影响范围和程度各异,对策也不同……”他说了很多,似乎经过了深思熟虑,不吐不快。摘其大要,列为三条。
第一、对于国际禁运这一类风险是全局性的,需要政府、行协和企业心无侥幸地做准备。政府和行协可以建立IT设备博物馆,把淘汰下来的旧设备保存好,最好是硬件、软件、应用程序、使用手册等配套保存。定期加电,使之处于随时可以使用的状态。可以参考某些国家保存淘汰的军事装备的做法。一些国家把淘汰下来的旧装备并不丢弃,而是有计划地保存起来。一旦新装备消耗完又得不到及时补充时,旧装备就可投用,虽不先进,但比没有要好很多很多。
除了政府和行协,企业层面也要有所作为。制定“利旧”计划时,预案要假定长期禁运的可能性。据此制定保持既有灾备水平的年限、降级灾备水平的年限、直至没有灾备的年限等。其实,“利旧”不仅适用于国际禁运,也适用于其它突发事件。据传闻,美国“911”事件后,有的公司在全球范围内搜罗某厂家停产多年的小型机,好坏不限。过去这些年份,我国处于经济增长高速期、中速期。一旦进入低速期,业务南宫NG·28量增长降速,IT系统提速扩容的需要下降,更新换代的资金和预算就不会如今天这般的充裕,延长设备使用期限必将会常态化,我们需要整体谋划,未雨绸缪。
第二、对于地震、水灾等自然灾害,或者恐袭等人为破坏这一类风险,异地灾备中心最有效;对于设备故障、供电故障、网络故障一类的风险,要靠同城或异地灾备中心;对于误操作,就要靠南宫NG·28中心自动化降低隐患,并依靠同城或异地灾备中心应对。现有的第四代灾备方案可以较好地应对。关键是提前做好预案,临事不慌。
第三、南宫NG·28防护、南宫NG·28安全的管理尤其重要,管理得好可以充分发挥和发掘既有方案的效能和潜能。管理是技术的倍增器,南宫NG·28安全的风险管理也不例外。管理的对象主要是人员。南宫NG·28中心的管理人员和技术人员很专业、很可敬,服务商的技术人员遵经验、守规范,但长年累月地、多年如一日地不犯错几乎是不可能的。“木桶原理”中的短板随时可能出现,任何一个短板都可能带来大的麻烦。日常运营中需要避免松懈和疏忽,措施需有效,警钟要长鸣。
我将这些记录下来,写成此文,希望能对读者有所启发和借鉴。经过三十多年的发展,我国南宫NG·28安全与灾备技术越来越成熟,风险管理越来越规范。一路走来,有困苦有艰难。回头再看,更多的是敬意和点赞。微信聊天、网上购物、移动支付这些司空见惯的生活新方式,都是各自的南宫NG·28中心在起关键作用。各行各业的南宫NG·28中心为国家的现代化、为经济发展、为民生的便利做出了巨大的贡献。假如没有这些南宫NG·28中心,我们的工作方式和生活方式无疑将后退多年。不夸张地说,方方面面皆已电子化、信息化的现代社会高度依赖不为众人知的南宫NG·28中心。南宫NG·28安全没有一时不关键,南宫NG·28中心的灾备没有一刻可或缺。
行文至此,我又想起了多年前在省城的那个夜晚写下的句子。那是我的向往、周总的向往,也是更多人的向往。录在此处,作为结尾。
屋瓦固,任春雨纷纷,淡定凭栏观雨景;
窗棂坚,料秋风阵阵,悠然倚楼听风铃。
【后记】本文引用的灾备故事由真人真事改编而来。人物姓氏用了化名,任何的对号入座都是不合适的。作者选取故障场景作为切入点,是为了借此点明技术架构的薄弱所在,那也是技术方案更新换代的关键所在。实际生产中,设备故障总会有,但不可误以为“都是故障”。医院多见病患,周围众皆健康。是同样道理。
及时响应,快速服务,为您保驾续航
立即注册