高性能计算系统存储解决方案

sansky — Sat, 12 May 2007 16:42:42 +0000

一、序言

油气田勘探开发是一个集石油天然气地质勘探、油气田开发、地质开发试验和计算机应用等为一体的综合性应用科学，具有数据报表类型多，数据量非常庞大等特点，每一个勘探单点都会有几个GB甚至几十个GB的数量数。随着技术的发展和进步，原油公司对地球勘探开发的要求越来越高，需要处理的数据量呈“指数级”难以想象的速度增长，需要借助高性能机群的数据处理能力，在最短的时间里对采集数据进行精细处理，通过综合解释研究，为下一步的钻井、开采提供真实反映地下构造的基础数据。

我们先来分析目前地球勘探开发单位常常会采用如下图所示的高性能计算系统的网络结构：

(图1)

上图所示结构以FC网络和千兆以太网络为基础，服务器节点分为计算节点和IO节点两种类型，其中计算节点专门负责数据处理和分析，IO节点负责传输数据。计算节点通过IO节点对核心存储设备进行读写操作。

采用这种结构主要是基于成本控制方面的考虑。如果系统采用FC-SAN存储网络架构，那么每一台计算节点上就必须安装1块或2块HBA卡。大量HBA卡需要的建设成本就会非常高。与大量HBA卡相对应的，网络层需要增加大量的价格昂贵的光纤通道交换机。高性能计算系统的节点越多，建设成本就越高。

将计算节点和IO节点分开可以大大降低建设成本，但随之也会带来几个问题，

1、多台计算节点需要通过IO节点才可能访问到存储设备中的数据，数据读写的效率与IO节点的运行状相关，因此IO节点不可必免地会成为计算节点的性能瓶颈。

2、IO节点通过以太网络与计算节点连接，提供数据传输服务。由于以太网络的数据传输效率相对较低，单台IO节点根本无法同时为所有的计算节点提供数据传输服务，因此大型的高性能计算系统一般都会有几台甚至几十台IO节点。具有大量的IO节点的高性能计算系统，其成本仍然会很高。

3、每一个IO节点都需要安装集群软件和负载均衡软件，以防止计算节点的数据传输压力集中到一个IO节点上。而高性能计算系统中所采用的集群软件和负载均衡软件一般都也非常贵，且不能保证多个IO节点上的压力完全相同，往往会出现个别IO节点压力过载时，大多数IO节点仍然欠载。过载节点的出现会大大降低整个系统中的工作效率。

二、UIT解决方案

为了解决图1所示网络结构中存在的问题，UIT建议高性能计算系统的存储网络采用IP-SAN架构，解决方案如下图所示：

（图2）

系统采用纯千兆以及网架构，核心存储设备采用高性能的ISCSI设备，计算节点和ISCS存储设备之间通过千兆以太网交换机连接。

核心存储采用1台或多台高性能ISCSI存储设备UIT BS3000，其独有的存储虚拟化管理功能，可自动实现多个端口之间、多个BS3000设备之间的负载均衡。增加BS3000的数量不仅可以大幅度增加容量，还可以大幅度增加存储的性能，从而提高整个存储系统的可用带宽和IOPS。

方案优势：

1、节省了图1系统必须的光纤交换机和FC-HBA卡，因而可大幅度地降低系统的建设成本。

2、在存储共享管理软件的管理下，核心存储设备的容量可同时共享给所有的计算节点，任何一个计算节点都可以通过以太网络直接对核心存储设备进行读写访问，从而真正地发挥出存储设备和节点的性能，提高系统的工作效率。

3、系统中任何一个节点既是IO节点，又是计算节点，节省了图1系统所必需的大量只能用于数据传输的IO节点，节省下来的费用可用来购买更多的计算节点或更大的存储容量。

4、少了IO节点，网络中也就不会出现性能和带宽瓶颈。

5、不再需要价格昂贵的集群和负载均衡软件，消除了因集群软件和负载均衡软件带来的性能降低，在节省成本的同时，还可以进行提高网络系统的性能。

S2A存储产品两个特点

sansky — Sat, 12 May 2007 14:24:18 +0000

DDN公司本身是做高性能计算系统的，为了满足高性能计算系统中临时数据的存储、共享和交换而专门开了一套存储设备，也就是现在S2A。存储可以说只该公司的副产品，其主要业务还是高性能计算系统，公司的主要收入并不在存储。S2A的性能主要体现在多主机共享时的高带宽方面，由于高性能计算系统中数据大多都是临时数据，或计算过程中产生的数据，因此数据安全保护等方面的功能较少，也可以说没有。

为了满足高性能计算系统中高带宽、高IO的访问特点，S2A内部采用了与其它存储不同的结构设备。

1、双控制器之间地址锁定机制。

一般的存储中，一个卷只能被一个控制器管理和访问，当该控制器发生故障时，管理权和访问权才会切换到另一个控制器。如IBM、EMC、HDS等都采用这种控制器设计方式，因此当多台主机同时访问一个卷时，只有一个控制器在工作，因此单卷的访问性能较低。

S2A的控制器之间除可实现缓存共享之间，还具有高效的消息互通及地址锁定机制，即当控制器A向一个卷中写入数据时，控制器A会向另一个控制器B生发出一个消息，告知某地址段已锁定。数据写入完成后，再告知该地址段的锁定已释放。这样在控制器A访问一个卷，控制器B可同时对该卷中的非锁定地址段进行读写数据。即两个控制器可以同时对同一个卷进行读写操作，单卷的访问性能非常高。

2、TIER。
TIER是指S2A在底层的物理设备层就将每个控制器后端的10个磁盘通道固定为8个数据通道、1个校验通道（即P通道)和1个SPARE通道（即S通道)。硬盘若安装在数据通道中的磁盘扩展柜中，该磁盘就可以存储实际有效数据，若该磁盘安装在P通道中的磁盘扩展柜中，该只负责校验信息存储，同理，若该磁盘安装在S通道的磁盘扩展柜中，该磁盘只起热备盘作用。

在磁盘划分的基础上，再将10个通道中磁盘扩展柜上的盘位进行划分。系统默认10个磁盘通道中的16位磁盘扩展柜的0号盘位合起形成一个基本RAID组，定义这个基本RAID组为TIER0，同理，所以有1号磁盘盘位中定义为TIER。一个扩展柜上默认有TIER0-TIER15共16个TIER。每个TIER中有10块磁盘，即8块数据块、1块校验盘和1块热备盘。TIER中的磁盘之间采用RAID3，每个TIER中磁盘有效使用率为80%.

TIER技术要求S2A后端的磁盘扩展柜（内部设置为单个双环路时）数量必须为10、20或30个。当磁盘扩展柜内部设置为两个独立双环路时，数量可为5、10、15、20等。

S2A的逻辑卷建立在TIER之上。手工选择一个TIER，使用该TIER的总容量创建一个LUN，也可以用一部分容量创建一个LUN，另一个部分容量创建另一个LUN.容量设定为总容量的百分比。当创建一个大容量LUN时，可以同时选择多个TIER，选定的多个TIER之间自动进行条带化，即TIER之间再做RAID0。同样，可用多个TIER的总容量创建一个LUN，也可以设定百分比，创建多个LUN.

S2A利用阵列管理的硬件和固件为它的存储端口上连接的设备提供全面的、三重的RAID能力，这种数据保护能力，叫做directRAID。这种并行处理的RAID技术征服了实现传统RAID时的单数据流限制。S2A存储区域网设备调整了真正字节条带化（RAID3）提供的数据保护，对所有的可利用的驱动器进行条带化（RAID0），所有的校验盘同时运行，提供无缝的数据保护而不引起丝毫的性能衰减。无论在大块和小块数据传输操作，DirectRAID都提供了无与伦比的性能，因此无论在数据流广播还是在事务处理操作中，S2A存储区域网络设备使用起来都同样的舒适。

当然S2A还有一个别的比较先进的功能或特点，但我觉得最好还是上面所说的两点。其它的大家可以自自己找资料看。

高性能计算 – 存储部落

高性能计算系统存储解决方案

S2A存储产品两个特点