7.2. 领先的网络解决方案提供商
一家业界领先的网络解决方案提供商利用其工程部的 100 多个 NetApp Filer 存储 UNIX 主目录及效率工具。该公司正处于高速发展阶段,去年并购了十多家小公司。为支持这些并购,IT 部门为新公司购买了 NetApp Filer,将主目录迁移到 Filer 上,同时向其分发了效率工具。
要求
设计 NetApp Filer 的备份和恢复解决方案时,该公司提出下列要求:
- 提供每个 Filer 的本地备份,以获得最佳性能
- 确保每周将所有数据都备份到磁带上
- 允许用户恢复自己的文件
- 业务部门可以灵活地为关键业务数据添加额外的快照
- 可以灵活地通过使用配额树来降低“恢复时间”
备份和恢复解决方案
作为一种策略,该公司使用 Snapshot 技术进行每日联机备份,使用磁带进行每周备份。
用于联机备份的 Snapshot
在各个 Filer 上,每晚都生成快照副本(六个每晚快照和一个每周快照)。系统将保留最后六个每晚快照副本和一个每周快照。因此,用户可以联机恢复最后七天中任何一天的数据。
IT 部门也使用每日快照替代每晚的磁带增量备份。该部门有 600 多台 UNIX 及 NetApp 服务器。有些系统上每天的数据变化要超过 20%。向磁带上备份这么多的数据超出了磁带备份带宽及盒式磁带容量的限制。由于每晚的磁带增量要远远超过任何备份时间(有些变化非常快的系统每晚的备份时间要超过一夜),因此会使用 Snapshot 进行每日备份。
取决于业务需要及数据对每个业务部门的重要程度,公司允许在制定快照时间表方面有一定的灵活性。
- 业务部门可以选择对关键业务数据生成更为频繁的当天快照副本。
- 业务部门也可以选择降低快照副本的生成频率,以节省磁盘空间,但我们并不鼓励这样做。业务部门经理必须通过电子邮件说明下列违反策略的原因之一:
- 系统数据较为稳定,即周与周之间变化不大,因此在周末进行备份已经足够。
- 每日增量可方便地通过其他来源获得。
- 系统属于 VOB 系统(源自 Rational® ClearCase® 工具):介于两次周末完整备份之间的增量备份没有任何用处。
磁带备份
该公司编制了自己的集中管理式磁带管理系统,可以引导 Filer 备份到本地磁带设备上。数据量小于 500GB 的 Filer 配置有一台本地 DLT7000 磁带机。数据量超过 500GB 的 Filer 配置有一个由八个盒式磁带组成的磁带栈,带 DLT7000 磁带机。公司的磁带备份时间表如表 6 所示。
级别
频率
级别 0(完整备份)
每四周一次
级别 1(自 0 级别备份以来发生变化的所有内容)
每月的第 2、第 3 及第 4 周每周一次
表 6:网络解决方案提供商的磁带备份时间表
出现灾难性故障时,按照此时间表,从磁带恢复后会挽救一周内丢失的数据。该公司采用耐火存储设备将完整备份的磁带在现场保留八周。八周后,磁带将被送至场外。
使用配额树缩短恢复时间
为节省磁盘空间,管理员倾向于配置大型卷 — 最多可达 500GB。发生灾难时,恢复这么大的卷所需的时间可能会过长,令人无法接受。大多数管理员将卷分割成配额树并备份各个配额树(而非整个卷),从而减少恢复各个配额树所用的时间。
7.3. Network Appliance 工程 IT 工作组
工程组的 IT 部门管理着八个 Filer,总数据量约为 3TB。发布卷是最大的卷,目前存储量为 512GB。
要求
设计备份和恢复解决方案时,工程 IT 工作组面临下列要求:
- 即时恢复关键数据
- 实施 Network Appliance 转储和恢复规则
- 轻松学会使用高度可靠的备份和恢复解决方案
- 提供最新用户文件版本的即时联机恢复
- 将恢复时间缩短到最小,短到足以完成恢复演习
发布卷已经大到基本无法从磁带进行恢复。大约需要三天的宕机时间(如果一切进展顺利)才能恢复此卷。根据 IT 工作组保守地计算,宕机导致的每天费用为 78,400 美元,三天就是 235,200 美元。这是根据工程师的薪资乘以无法工作的人员数得到的。
备份和恢复解决方案
此工作组使用 Snapshot 技术进行联机恢复,使用 SnapMirror 技术进行灾难恢复,使用磁带备份进行小型卷的灾难恢复及存档。按照由灾难导致的宕机费用,工作组从成本角度证实了 SnapMirror 软件的使用价值。
Snapshot 功能
该工作组分别在上午 8 点、上午 11 点、下午 2 点及下午 6 点安排生成零个每周快照副本、七个每晚快照副本和四个日间快照副本。此时间表提高了联机恢复的可能性,减少了从磁带中恢复丢失或删除的文件的次数。
SnapMirror 技术
为解决大型发布卷这一问题,工程 IT 工作组购买了另一个容量更大的 Filer 及 SnapMirror 软件,用于出现故障时实时复制发布卷。大型发布卷被分为四个卷,每个卷为 150GB。
SnapMirror 软件通过千兆位以太局域网传输数据,因此网络带宽不成问题。目前这两个系统都位于用一建筑物中,但不久的将来,目标 Filer 将被移到另一幢建筑物中。
进行灾难恢复时,该工作组可在几分钟内切换到镜像的卷中。随后,工作组会将数据镜像回原始源卷中。其他 Filer 上的小型卷将通过磁带备份进行重建。
镜像解决方案的另一个优点是负载平衡。第二个 Filer 可仅用于只读访问。例如,如果工程师需要安装未发布的 Data ONTAP 软件版本进行测试,就可以从第二个 Filer 中进行下载。
磁带备份
该工作组每个周末进行完整(0 级别)磁带备份,每日则进行级别为 9s 的备份。每五周,磁带将被送至场外。这些磁带将保存一年。
级别
频率
级别 0(完整备份)
每周
级别 9(自 0 级别备份以来发生变化的所有内容)
每日
表 7:Network Appliance 企业 IT 部的磁带备份时间表恢复时间
工程 IT 工作组努力将卷大小保持在 150–250GB 范围内,以确保合理的恢复时间。按照 IT 保守计算,如果恢复速度为 15GB/小时,则 150GB 的卷需要 10 小时才能恢复完毕。IT 工作组还通过进行恢复演习对恢复进程进行了测试。恢复时间应长短合理,以确保演习切实可行。
1 条回复
Thanks for sharing, this is a fantastic blog. Keep writing.