10月29日下午在京都信苑酒店参加了中计报组织的第四届中国容灾高峰论坛,我再次代表UIT做演讲。此次演讲的题目是“建立多层次服务的共用容灾中心”。来听的还不少,约有200多人,像上次一样。附件是本次演讲的PPT,请大家多批评指正。
以下文字是主办者整理的现场录音:
各位专家大家下午好!去年我也在这个论坛上做了一些关于容灾方面的演讲,上次的内容主要是针对于单个企业内部如何来建立容灾中心和容灾系统。今天我讲的内容主要是如何建立一个公用的容灾中心。这个容灾中心不在是为企业内部的单个企业来进行服务,他是同时为多个不同类型的企业进行服务。刚才我们侯海波顾问讲了共享灾备中心建立的可行性和必要性,我的报告里会给大家介绍如何来建立一个可以提供多层次服务的灾备中心,以及在这个灾备中心建立过程中我们需要注意什么样的问题。
讲之前简单介绍一下公司,这是一个政治任务,所以我必须完成。我来自于UIT。UIT建立于2001年,目前整个运营中心在北京,在深圳、武汉、欧洲爱尔兰和美国硅谷共设有4个研发中心。公司整体人员数量超过300人,在存储行业里面应该算是一个不是很小的公司。进过多年努力,UIT目前在各个行业里面都有很多重要的成功案例和项目,主要从事广电、电信、政府、安防、互联网以及教育等多个行业。这张图是来自于IDC的报告,这是2008年,从这张图上可以看到,在中国存储市场上UIT整体市场份额排名是第八位、第九位,同时这张图上可以显示出来2008年UIT市场份额增速在这些厂商里面排名第二,市场份额在国内厂商排在第一。
UIT有全线的存储产品,从低端、中端到高端的存储产品,有直联存储,有iscsi存储,有FC存储,同时与这些存储系统相关的,UIT提供不同的软件,以及管理系统。基于整个存储系统的管理SCM存储管理软件,它可以在存储行业里面集中管理整个系统里面所有存储设备。同时UIT根据行业以及市场的一些具体需求,根据行业的不同需要,我们开发了很多不同的解决方案。适合于不同行业的用户,以及不同行业系统的具体需求。这些解决方案包括我们在线存储,包括在线备份,同时包括远程数据的容灾。同时也根据一些特殊行业的用户需求,定制了一些具体的应用系统的解决方案。比如说超级保险箱,比如说针对于视频监控行业提出的S3视频监控存储解决方案。同时在08年初极力推广云存储技术,今年推出云产品,应用不同的解决方案里面。这是UIT一些情况介绍,下面我就给大家简单介绍一下UIT是如何来创建一个共享的灾备中心。
这一部分是一些市场的规模需求,我会很简单的过一下。整个这个是来自IDC报告,这主要是做一个调研,2008-2012年整个灾备市场规模需求,从这张图里可以看到,随着需求的不断增加,整个容灾市场的需求会快速的进行提升。同时,因为9.11,因为汶川地震,因为我们南方某一城市一场大火,整个行业里面对容灾的需求不断的在提升,整个市场趋势来自于八个方面,一个是全社会的容灾意识的提升,另外是政府、能源、制作等各行业对容灾希求的提升。同时对于一些中小企业来讲,以前我们的想法是如何把数据存下来,现在我不禁要存下来,而且要保证数据能够长期的保存下去,一旦我主系统发生故障的时候可以把数据恢复过来。这些需求促使整个行业容灾需求的增加。
当然容灾系统的建设有很多的依据,国际上有七层要求,有一定规范,对容灾系统划分有七层要求,中国国内也有一个国标,我们划为六层,这些规范、标准都可以在网上查到,有国信办标准,有银行,有金融各方面容灾系统的标准,这些标准大家感兴趣可以在网上随时查到下载来看。
对于UIT来讲,我们认为容灾技术实际上是分很多层次的,UIT目前提供的解决方案主要集中在灾备体系六级中的第五级。第五级实际上实现了五个层次,分别是存储层实现容灾。操作系统层实现容灾,数据库以及应用软件,这五个不同层次在技术的表现上是完全不同的,同时对整个系统的要求也是不一样的。比如存储设备层,这个一般会要求同型号的产品,具有远程容灾的功能。容灾的数据传输是依靠存储设备本身的控制器来进行完成的。我们再往上一级,逻辑卷一层,我们可以通过虚拟化管理软件,可以通过基于网络层的存储虚拟化设备来实现。比如说现在有很多的SVM,SVC这样设备,可以通过在网络层实现远程数据容灾。操作系统卷管理软件,还有数据库本身的远程数据复制,还有在应用层,通过对应用软件的开发增加应用软件功能,实现数据同时的径向写入和远程数据复制,以此实现远程数据容灾。
这些都是我们可以看到的数据容灾的一些技术和实现方法,在具体的某一个容灾中心里面我们到底采用什么样的技术来实现,实际上我们要看前端具体的应用,以及客户的来源。因此对于UIT来讲我们提出了一个灾备中心解决方案并不是单纯的依靠某一种技术或者说某一个硬件或者说某一个软件来实现远程容灾。因为考虑到既然这一个灾备中心是一个公用的灾备中心,他前面服务的客户或者说服务的系统来自于不同的单位,有不同的要求,有不同的操作系统,也有不同的数据存储备份级别的要求。也就是说RP0和RT0要求不一样,我们提出解决方案分为多个层次,我们可以看这张图右边,我们分了四类客户。同时服务的级别也由低向高提升,第一级服务我们称之为网络磁盘备份服务,这个很容易去理解,就是说我们常见的在QQ或者MSN里面会有网络磁盘,这样我们提供类似这样的服务,这些客户只是需要简单文件备份或者复制,我可以给客户提供一个远程的登陆客户端,同时定制策略,我可以提供定时的自动的基于文件的远程复制和备份,这个就是依靠UIT超级保险箱方案实现的。我们可以针对具体的单个用户,也可以针对一个集团,这个集团里面下面有一百个,一千个具体用户,每一个用户会有一个帐号,通过网络定时的自动的或者说手动的,我可以把文件,我重要的文件传输在远程的灾备中心里面因为存储。这是对于一些最简单的,要求级别最低的一些用户提供的远程容灾服务。
再往上一些,我们一些重要数据库系统,除了在本地做一些备份,我还希望当本地整个系统发生故障或者问题的时候,我可以从远程把数据恢复回来。但是这些系统对RP0和RTO要求不高,我系统当一天或者一天都可以,我能够把主要数据恢复回来就可以,我们针对这些提供第二级服务,这是什么呢?实际上就是远程的备份。很简单,很容易去理解,就是把备份设备放在远程灾备中心里面,把我们的备份服务器放带远程灾备中心里面,在客户现场装一个客户端软件,一个站点可以,十个站点也可以,一百个站点也可以,都可以把远程备份上去,一旦本地出现问题的时候,我通过备份软件恢复回来,这是对于用户要求比较低,这种用户提供第二级服务。
对于一些要求更高的服务,我们可以通过第三级的服务来实现。这是什么呢?对重要的系统和数据要求实现实时数据备份,这最简单是什么呢?CDP。我们通过灾备中心的CDP服务器和客户段CDP软件,来实现两者之间的实施数据复制,这样的话远程用户无论在任何时候数据发生故障,我们都可以通过远程把数据恢复之前的任意时刻,这是我们提供的第三级服务。
第四级服务是什么呢?我除了要能够实现数据的实时恢复,我很多时候希望远程灾备中心接管本地的服务,比如说这个地方整体发生的地震,楼没有了,我希望这个时候灾备中心接管一些主要的服务,这个时候我们就在远程的灾备中心提供一个基于数据库的核心业务的实时业务复制,同时在灾备中心里面提供与客户端或者客户远程相类似的这样一个整体的系统,我们数据库服务器等等很多都建立在灾备中心里面,我为了节约一些投资可以采用主机虚拟化的方式,通过一些技术在灾备中心里面搭建虚拟的主机环境。这样的话远程发生故障的时候,我不禁可以提供数据恢复,还可以提供业务系统的接管。这样UIT可以针对四种不同级别的服务,当然对于一个用户来讲,如果这个里面有大型的数据库,有重要的文件需要存储,而且我还有个人资料需要存储,比如说领导一些重要的文档、笔记本D盘或者E盘需要备份,可以买第二级服务,也可以买第一级服务,或者这几种服务同时买,对于灾备中心来讲我定制了四种不同的服务级别,我就需要不同产品型号,一个用户可以买一个型号,也可以一个型号买多个,或者买不同型号的产品。每一个不同型号产品和服务价格、定价是不一样的,提供的服务内容也是不一样的,这样的话可以适合于不同的客户。
灾备中心建立不是把不同功能软件列在一起,灾备中心最核心问题不是技术问题,而是管理问题。如何在灾备中心里面进行数据的管理、维护,包括运维这是一个核心的问题。因此在灾备中心里面,我们在技术上也需要有很多方面的满足,灾备中心比如说存储设备,不会简单的一个FC设备,这需要有多级设备。在这个方案里面就提供了三大类不同设备,比如说FC设备,这样的设备提供给四级服务客户,他前端是数据库,为了保证实时复制效率,我们必须在灾备中心里面提供高性能FC设备,来保证数据实时写入,对于一、二级客户来讲,我们可以通过大容量的云存储设备提供大容量的存储空间,同时这个存储空间既有重复数据删除功能,同时还有数据的备份功能。简单的说就是把数据复制多份,这样保证用户数据存在灾备中心之后不会丢失。现在去建一个灾备中心,用户经常会问一个问题,我本地数据丢了有你灾备中心,万一我的丢了你的灾备中心丢了怎么办,我们在灾备中心要进行二次备份,一种方式通过云存储本身数据复制功能实现,还有一种利用传统方面,就是虚拟磁带库来把已经存储灾备中心数据再复制多份。
灾备中心可以提供对外四级服务类型,第一级是针对文件的备份,适合于中小企业,个人用户一些个人桌面数据的备份。第二级服务可以实现主要的重要的数据或者重要的服务器来进行远程的数据定时自动备份。第三级服务,它的核心是CPP持续数据保护,可以针对我们关键的数据,关键的服务器进行实时数据保护。第四级服务就是一些核心数据库系统,它可以实现远程的数据库实时复制,以及业务的切换。
我们在西南有一个项目正在做前期的建设和需求的规划调研,这是在这个项目里面提出的一个整体的共享式灾备中心的规划。核心是基于电信的基础设施,也就是通过电信建立基础的远程网络,以及电信提供机房。在这个之上核心就是网络接入。首先第一点要实现远程的数据传输,就必须有远程的接入。另外一个接入下来就需要对整个系统在传输过程中或者在进入灾备中心里面要实现数据的加密,要实现网络隔离,同时要实现访问控制,内容过滤。另外一个,我们在这样灾备中心里面,对于很多用户来讲常见的很多用户只有2兆,5兆或者10兆带宽,还可以提供网络加速设备,这是一个硬件设备,可以提升四到五倍网络加速,这是网络层。
再往上就是存储层,存储设备是基于整个网络环境进行数据的存储和管理,它的核心就是使用云存储实现大量的数据长时间存储。同时可以通过虚拟的带库,物理带库进行数据存储。数据存储之上就是如何来提供服务,这个服务有不同的服务方式,也就是灾备不同的模式。有文件的,有数据库的远程备份,CDP,也有实时数据复制,最终往上提供给用户不同级别的服务类型或者说产品的型号。在整个体系的建设中,我们有很多的问题需要去解决或者需要去管理。第一,我们如何来引导客户正确的选择自己的灾备服务的级别,现在有很多人一提灾备就是零数据丢失,这实际上零数据丢失很多系统是难以做到的,特别是在远程的系统里面。同时即使可以做到花费资金、投入非常大,在这里面是如何能够引导客户正确的选择自己的灾备。
对于个人的笔记本来讲远程备份也可以实现零数据丢失,但是你花多少钱。我们在建立灾备中心的时候,我们如何通过周期性的演练,周期性人员对系统察看,周期性对系统调研和巡检,来保证整个系统的安全稳定,同时能够保证这个系统平时不出问题,出了问题马上就能恢复,而且恢复就可以成功,这是我们要注意的一些问题。
在这个灾备中心里面除了我们常见的一些数据复制和数据容灾的技术之外,我们还有一些核心的技术。比如说云存储技术,云存储技术主要是为大型的IDC中心或者电信的运营服务商提供基于IP网络的存储设备,整个存储系统称之为一种存储服务,这不简单是一种存储设备,是通过服务器、软件以及存储介质空间对外提供一个完善的存储服务。这有很多重要的功能,是我们单独的存储设备是不具有的。第一,他支持大容量的PB级容量管理,支持重复数据删除,支持用户针对某一个帐号和用户名来进行远程的基于互联网的访问方式。这和我们常见的FC也好,智联存储也好,跟他们应用方式是完全不一样的。
整个系统必须具有负责优良的管理功能,整个系统可以实现对网络,对存储,对网络安全等方面完善的管理。通过统一的管理界面可以实现对网络的管理,对用户权限以及用户使用权等各方面管理。同时可以对整个业务来进行优化管理,除了技术层面的管理之外,对于这个灾备中心的运营商来讲或者IDC管理员来讲还涉及到一个收费的问题。如何来实现整个系统的管理,实现费用与我们服务级别的对应,实现我们服务级别与存储设备或者说我们存储软件对应,如何实现存储软件与我们硬件设备,以及基础架构的一些对应,这个都是需要我们统一的管理系统来实现。
另外一个,我们很多这样一些功能,以后可以和在3G时代来看,我们以后很多的存储,我们的数据,我们的视频是通过手机进行浏览,进行上传和下载的。这样一个灾备中心除了实现我们基于PC或者基于服务器远程容灾之外,后期是不是还要考虑如何实现手机上容灾和备份,这些都可以通过统一的平台来考虑,来尝试去实现这样一些功能。
安全问题是灾备中心的一个核心问题,如何能够保证数据的安全。一是保证这个数据不会丢失,我的数据到了灾备中心,你灾备中心告诉我丢了,你怎么赔我,或者你怎么能够保证数据不会丢失,可以获得我的信任。这个我们仆役通过多种方式,比如说在灾备中心本身再建一次备份,或者再实现一次实施数据复制,这些可以实现。
还有一些问题,我这个数据不能泄密,谁都可以看,或者谁都可以拷走,我万一存一点隐私照片,明天网上都是,这不行。这里面必须要有非常严格的加密技术,不仅我上传上去所有的数据你都看不到什么格式更打不开,不管是我的网管通过非法的方式,就是通过资源管理器直接去打是打不开的,同时对灾备中心人员来讲也不能打开,要有加密功能。
对于一些黑客来讲,我们也必须有一些安全的防范,内部人员没有问题,但是黑客总进来。对于存储设备来讲需要一些很多的技术上的支持,比如说3A认证,我们通过不同网络,不同存储设备和不同主机之间的功能来实现访问权限的一些限制。
最后简单说一下容灾备份项目,实际上这是一个非常庞大的工程,涉及到多个部门,不仅是IT人员,同时也涉及到单位里面的管理人员,特别是领导层。整个领导层对灾备没有意识,或者说不重视,这样一个系统是建不好的。而且即使建好了很难去用。对于整个灾备中心的建设来讲,我们看到中间实施阶段和前期的技术方案阶段,实际上只占了很少一部分。更重要的是前期的项目一些规划,相关设计人员的概念、技术的培训,只有完成前期的一些内容,包括对领导的培训,使大家充分认识到容灾的重要性,它的必要性,以及在容灾系统中所可能遇到的一些技术难点和管理上的难点,才能够使大家正确的认识到一个容灾项目建设全过程的一些重要性。
另外一个就是一些对业务前期的分析,对业务的分析实际上是什么呢?就是我们投入的和收益的分析,我对整个系统进行资金的分析,对于风险的分析,对于业务进行分析,我可以算出来大约想投多少钱,可以建立一个我想要的容灾系统,而不是说我现在有100万你随便给我建,到底建成什么样我按照钱来做,或者我简单说只要RPOHRTO都是零,你来帮我建。我们必须对业务进行评估,假如整个系统停半个小时,我业务系统会损失100万,我花100万来建就可以,假如我停了半个小时损失只有十块钱,你花一百万或者两百万建这个系统就是亏的。
当整个系统建完之后,最主要的问题就是系统的运营。系统的运营有几个方面:第一,必须要有过强的或者说技术能力较强的运维人员,否则的话系统建完了,招几个人这几个人只能看堆。我们以前做过一个视频监控项目,项目并不大,在一个分局,分局里面机房就在最角落一个位置。突然有一天领导说你这个系统出问题了,说怎么了?说看不见图象,过去一看机房停电两天了。你说这样一个系统里面没有固定的维护人员或者说维护人员的技术能力不强,容灾系统建的在好照样没有用。
另外一个就是说我们除了有这样的人员之外,这些人员要进行周期性的演练。不能说我们这个系统建好了之后肯定就能恢复回去,可以这么讲80%的系统建好之后不一定能够一次性回去,我们有很多系统在很早之前曾经做过一个项目,这个项目里面有15个系统,运行半年之后说进行一次容灾恢复演练,15套设备只有一套是一次性通过的,其他都没有一次性通过,费了半天劲终于回来了。所以在这样一个容灾系统里面,特别是越重要的系统,我们应该建立这种周期性的系统恢复演练,来保证整个系统在一旦出现问题的时候就有人去可以恢复,而且恢复一定能一次性完成。
后期的一些管理工作,周期性进行统计和分析我曾经出现过什么问题,我这些问题怎么解决的,我整体系统压力什么时候最大,什么时候最小,进行统一分析,这样可以进行人员和资源的调配。
整个容灾系统的一个建设是基于服务能力,基于大的灾备中心,需要我们提供完善的IT设备,以及非常有力的技术支持,只有具备这样一些基础东西,加上完善的解决方案,才可以为广大的用户提供一个非常有效的可靠的共享式容灾灾备中心。
1 条回复
不错 啊 呵呵