2015年6月

备份加速,让互联网坚韧如钢

数据灾备不完善导致的灾难不甚枚举,近日阿里和携程这么牛×的互联网大企业,也在灾备这个落凤坡上狠狠摔了一跟头。是大意失荆州,还是命中注定有此劫?让我们回顾一下整个事件的经过。

第十届中国灾难恢复行业高层论坛5月27日刚刚在贵州落幕,阿里和携程就赶在这一当口,演绎了一次灾备大劫难,真可谓用心良苦。5月27日下午5点左右,大量用户反馈支付宝钱包客户端和网页版均出现无法正常支付或者登陆的情况。下午18时许,支付宝通过微博发布消息,承认支付宝使用出现故障,原因是杭州市萧山区某地光缆被挖断,运营商正在全力抢修中。继支付宝大面积故障之后,携程官网也“中招”了。5月28日,携程官网和客户端出现故障全面瘫痪,搜索功能无法使用,页面显示404报错。在经历了12小时瘫痪后,携程网于当晚10时左右恢复了正常预订功能。此前12个小时内,携程旅行网及其APP一直陷于瘫痪之中。经过排查后,携程表示其数据没有丢失,预订数据也保存完整,该事件系内部员工误操作所致。

当年那句响当当的“支付宝瘫痪我就进监狱”深深触动了那许多阿里粉的壮志情怀。时隔多年,不知马云有何感想。“说走就走,说瘫就瘫”的携程也没有浪费这次绝佳的宣传机会,很快也瘫了,而且瘫得那么奥妙。互联网灾备的大坑究竟还需多少业界大佬的颜面和用户的胆战心惊来填补?你别走,咱们聊个五块钱的。

1.灾备防君子也防小人

抛开阿里的电缆为啥被挖,携程的文件为啥被误删的讨论,这种被挖和误删的事情是否“必需”导致整个系统瘫痪呢?答案肯定是否定的,否则从企业到国家也不会花费几十几百亿来做数据灾备的工作。

阿里电缆被挖,如何快速恢复系统:

偷电缆这种事在一些地区是一种发财致富之道,谁也不能保证绵延1500公里的电缆路过哪个村,哪个岭不被挖,或者被误挖。当然某些地方政府还喜欢不停地挖路,然后埋点这个埋点那个,当然了,为了改善民生,修建设施导致的误操作也是在所难免的。所以“被挖”往往只是个概率问题。企业越大,“中奖”的可能性也就越大。问题来了,万一我家企业电缆被挖了怎么办?告诉你,一定要多处异地备份。你不要问我一天之内多处电缆同时被挖怎么办,我不想回答你。

携程文件被删,如何不让灾难得以复制:

加班是“挨踢”们的重要生活内容之一,一个彻夜奋战、已经快把头发拽完、大脑停止运转的程序猿和一个对加班无比仇恨即将离职的熊孩子,不小心或有意删除文件造成的危害是一样的,所以别指望用道德的空气盾牌来维护企业的数据安全。必须有一套安全的灾备手段,才能保证不论员工是精神萎靡还是郁郁寡欢,企业的数据始终安全。所以类似携程的企业要注意了,做好异地备份,可防疯防仇防忧伤,实在是备份在手、谁爱走谁走!

2.备份及时,才是重中之重

调侃完毕,干货来了!是否只要做了两地三中心的备份就够了?我就在等你问这个问题。

事实远远没有那么简单。来个“栗子”,某企业在A城,为了数据安全在B城和C城都做了数据备份,但是发现B城和C城的数据与A城有时差,而且不是一点点,是几个小时。如果这个时候A城发生数据灾难,那么B城和C城备份的数据也不是新的数据。这种情况造成的危害也是不可预估的。尤其是金融、银行等数据敏感型企业,其数据的实时性和安全性尤为重要。

北京华夏创新科技就曾遇到过某二线城市银行灾备系统时差很大的情况。该银行实现异地实时灾备,但实际使用中遇到以下问题:

1、带宽不足出现备机数据与主机数据时差过火的问题。

2、数据灾备发生在该市A区主机与B区备机之间。SDH专线带宽为8M。空闲时延迟为5ms-8ms,基本无丢包;但网络繁忙是,带宽用满,延迟抖动较大,伴随2%左右的丢包。

针对以上问题北京华夏创新科技给出了一套透明的解决方案,在A区和B区各透明部署LotWan广域网加速系统,并开启TCP协议优化、数据压缩、字节缓存功能。部署完毕后,从传输的速度看,优化后,在网络繁忙的前提下FTP大文件传输速率由加速前的303KB/S提高至5502KB/S,整体提升18倍。从数据的同步看,加速前,主机和备机的数据时差在3.5小时,平均6小时;加速后,平均时差只有0.5秒,完全避免了灾备系统时差对业务安全性、可靠性以及连续性的潜在威胁。

由此可见,仅仅做了灾备是不够的。在大数据呼啸而至的互联网+时代,数据备份不及时、数据不同步所带来的安全隐患与没有备份是一样的。因此,互联网企业不仅要尽快披上灾备这身战甲,还要穿上备份加速这双战靴,这才能在荆棘、陷阱满地的互联网战场上大步前进、无往不利。否则当灾难爆发时,就真是辛辛苦苦几十年,一夜回到解放前了。