A-A+

谁是最对的重复数据删除方案[转]

2008年05月08日 基础知识 评论 2 条 阅读 3,075 次

在Clipper Group2006年8月发布的"备份技术的发展(The Evolution of Backups)"分析白皮书中,分析师针对提升容量效益部分做出了这样的报告:"重复数据删除技术是备份技术的下一个发展步骤。"在二级存储归档时删除重复数据可以大幅削减存储介质的成本、进一步流畅管理任务,同时最小化复制数据时的带宽需求。

尽管重复数据删除的概念非常先进,但由于识别重复数据、索引唯一数据、将被紧凑的数据恢复到初始状态所需要的处理能力要求的成本太高,致使这项技术的推广非常缓慢。但是,随着技术的发展,处理能力越来越经济高效,重复数据删除技术在近期再次成为市场的焦点。

许多厂商都声称自家提供的是'最佳'的重复数据删除产品,而将辨别真伪和判断哪些因素对企业的业务更为重要的难题留给了迷茫的用户。甚至有些厂商不切实际的大肆渲染自家产品可以巨量删除重复数据,致使很多早期的重复数据删除用户对他们之前选择的解决方案感到非常失望。

企业想要找到可以真正提供经济效益、高性能且无限扩展的长期数据储存的重复数据删除技术,就必须充分考虑到一些关键性因素。本文将有助于那些想要使用重复数据删除技术的用户了解更多背景资料,从而做出明智的购买选择。

重复数据删除成为一项操作需求

由于二级存储卷的不断增加,企业需要一种方法可以极大的减少数据卷。而很多法律法规的变化,也使得企业面临更大的挑战,被迫不得不改变他们原有的数据保护方式。通过消除重复数据,使数据归档时尽可能的紧凑、简洁,不仅极大的削减了企业成本,同时企业还可以将更多的数据在线保留更长时间。很多企业都希望将数据存储环境的成本效益和性能发挥到最优,而重复数据删除正是这样一种技术,因此很快吸引了企业IT主管的眼球。

虽然压缩技术也可以提供平均值为2:1的数据压缩,但这对于企业需要处理的海量数据只不过是很小的部分,实在是杯水车薪。只有重复数据删除技术才能满足企业大量削减数据量的需求。

由于人们对物理搬运磁带的方式所面临的风险(损坏、被窃、丢失等)早已非常明了,而企业在进行远程存储时又特别重视关键信息的保护和风险最小化的问题,电子化传输无疑成为远程传送的最佳选择。在将备份数据以电子传输方式传送到远程站点进行归档时,重复数据删除能够使所需的带宽需求最小化。

优秀的重复数据删除解决方案应该具备的关键性标准

当用户在评估重复数据删除解决方案时,可以将下面的八条标准作为主要评估标准:

  • 1 能够解决关键性问题:有效删除重复数据
  • 2 能够与当前环境相整合
  • 3 VTL容量
  • 4 重复数据删除对备份性能的影响
  • 5 具备可扩展能力
  • 6 支持分布式应用
  • 7 能够对存储库提供实时保护
  • 8 效率及有效性

1. 能够解决关键性问题:有效删除重复数据

重复数据删除解决方案是否能够真正解决关键问题所在:有效的删除二级存储上的重复数据,是我们首先要考虑的问题。重复的备份数据会造成多次储存需求,只要重复数据不被删除,储存需求就会继续。

ESG集团2007年发布的报告用图表方式说明了备份向新技术发展的必要性。相对于一次全备份来说,增量和差异数据备份也可以减少备份的数据量。

然而,即使是增量备份,在保护基于文件级变化的数据时,还是会备份很多重复的数据。当需要跨越多个站点的多台服务器进行备份时,通过部署重复数据删除解决方案减少存储才是更好的选择。

2. 能够与当前环境相整合

一个高效的重复数据删除解决方案应该对当前IT环境的影响/中断越小越好。许多企业都选择利用VTL备份来避免影响/中断,以在不改变企业当前备份策略、处理或软件的情况下提升备份质量。因此,基于VTL的重复数据删除技术在部署时对环境影响也应该是最小的。它将更多的注意力集中在了备份这个巨大的重复数据存储池上。

基于VTL的t重复数据删除解决方案通常要求使用专用设备,但这并不影响部署的灵活性。一个充分灵活的重复数据删除解决方案应该即可以以软件包形式提供给用户,也可以提供给用户整体的解决方案(Turnkey Appliance),从而最大限度的使用户的现有资源得以利用。

3. VTL容量

如果重复数据删除技术的部署是围绕着VTL进行的,那么VTL自身的容量就必须作为评估的一部分来考虑。重复数据删除节省下的容量是不能解决由于使用不够规格的VTL所引发的问题的。因此,既要全面考虑VTL的功能性、性能、稳定性以及支持能力也要充分考虑重复数据删除的扩展能力。

4. 重复数据删除对备份性能的影响

在哪里、什么时候进行重复数据删除是关系到备份处理性能的非常重要的问题。有些解决方案试图在数据进行备份时删除重复数据,这会使VTL的性能降低多达60%以上,直接造成备份过程太慢和备份窗口太大的严重性能影响。

相比之下,在备份任务完成之后进行重复数据删除的解决方案则不会出现这些问题,而且不会对备份性能带来任何影响。另外,为了最大限度的发挥易管理性,解决方案允许用户依照多种不同的因素,如资源利用、生产进度、创建时间等进行精细(磁带级或磁带组级)的基于策略的重复数据删除。这使得存储经济性轻松实现,同时,也将系统资源的利用发挥到最大。

5. 具备可扩展能力

由于重复数据删除解决方案是用于长期的数据储存的,在容量和性能方面的可扩展能力也是非常重要的考虑因素,而且至少要考虑未来五年甚至更长时间的增长计划。那么,在保证快速访问的前提下,你希望有多少数据保存在磁带上?你需要怎样的数据索引系统呢?

优秀的重复数据删除解决方案提供的架构,无论是在初始部署时,还是面对未来系统的长期增长,都应该能保证最优化(Right-sizing)、最经济的架构规模。集群可以帮助用户满足不断增长的容量需求---即使是N多Petabyte数据增长的环境---而且不会降低重复数据删除的效率或系统的性能。

这个架构还为存储库保护的部分提供了故障切换(Failover)功能。

6. 支持分布式应用

重复数据删除技术,不只是能为单个数据中心带来利益,对于具有多个分支机构或多个站点的大型企业来说,它可以让整个企业的分布式应用受益无穷。一个包含复制和多级重复数据删除的解决方案可以将这一技术的优势发挥到极致。

举例来说,一个企业由1个总部和3个区域代表机构构成,可以在区域代表机构部署一台具备重复数据删除功能的容灾设备,使本地存储及向远程中央站点的复制更为高效。这种解决方案使数据复制到中央站点的带宽需求降到最低,它只不过是用来确定远程的数据是否已经包括在中央的存储库中。所有站点中,只有唯一的数据会被复制到中央站点或是容灾站点,否则所需的带宽就会增大。

7. 能够对存储库提供实时保护

保证对删除重复数据的存储库的访问是非常关键的,因此它不能允许有单点故障发生。一个优秀的重复数据删除解决方案应该包括可以在本地存储故障发生时提供保护的镜像功能,同时也应该具备复制功能以在灾难发生时从提供保护。这种解决方案还应该在出现节点故障时具备故障切换能力,即使是一个集群中的多个节点出现故障,企业也必须能够及时恢复数据同时还要保证业务持续运营。

8. 效率及有效性

与基于文件的重复数据删除方式相比,在SUBFILE或数据块级分析数据的方式删除的冗余数据会更多。比如,一个4MB大小的文件被修改了一行内容,如果是文件级解决方案,整个4MB的文件都必须再被保存,而存储上就需要保存两遍。如果这个文件被发送给多个人(这种情况非常普遍),这种负面的效应也会随之倍增。

大多数SUBFILE重复数据删除处理是通过将大量的数据分割成'块',就像虚拟磁带匣一样,在相对小尺寸的数据块中搜索重复数据。分割成大块的数据处理速度更快,但发现的重复数据也比较少;而分割成小块的数据可以更轻松的发现更多重复数据,但它在扫描数据时所需的开销也会更高。

如果数据在磁带(或其它应用的数据流)的时候就被分割成'块',重复数据删除处理在备份软件创建的元数据上就能进行。优秀的解决方案可以分离元数据,从而在分割成'块'的实际数据文件中发现重复数据,这种方式使找到重复数据的机率更高。有些重复数据删除解决方案甚至可以按照所掌握的数据格式来调节分割的'块'的大小。如果能将这些技术结合应用,将使发现的重复数据数量大幅增加。这在重复数据删除解决方案的经济效益标准方面影响重大。

找到最适合的整体解决方案

由于业务应用需要和法律法规的要求,存储的数据量还在不断的增加,重复数据删除也快速上升到至关重要的地位。在大幅消除数据量、削减存储需求、最小化数据保护成本和风险方面,重复数据删除可说是唯一的应对办法。

尽管重复数据删除技术所带来的利益多多,企业还是应该抵御住不时出现的针对这一技术的大肆抄作。无论是哪种方式,重复数据删除的删除比率都可以根据数据自身的格式和保护策略的不同而发生变化。

为了使重复数据删除技术的利益最大化,企业应该从上面提到的几个标准出发,充分考虑,仔细评估,找到真正适合自己的重复数据删除解决方案,而不应该简单的听信于宣传的重复数据删除比率的理论数值。

2 条留言  访客:2 条  博主:0 条

  1. epie

    有一个疑问,文章有提及,dedup对备份的影响:
    边处理边写和写完再处理

    第一种在数据量上去后,瓶颈显而易见,虽然很多原厂不承认…
    第二种呢,有几个疑问?
    1.周末全备份比较多,数据量大的情况下;是否也必须出现写入和dedup同时进行的情况,影响性能,同时也需要占用大量的磁盘空间?

    2.由于磁盘内容写入后再dedup,为了释放已写入的空间,需要更频繁的磁盘整理才真正释放空间?

  2. sansky

    一般来说,写完再处理都会在磁盘上创建一个缓冲区,一个文件写入存储后,立刻进行dedup,同时下一个文件继续写入。整体来看,文件写入和和dedup是同时的。但就某一个文件来看是,先写后dedup的。

    问题1:所以需要容量配置时需要有一定的冗余,但并不需要大量的空间。存储设备设计时一般都会有冗余的。

    问题2:数据先写入缓冲区,不会使整个空间产生文件碎片。

给我留言

Copyright © 【存储部落】 保留所有权利.   Theme  Ality

用户登录 ⁄ 注册

分享到: