A-A+

案例:盘阵故障分析

2007年06月28日 网络存储 评论 1 条 阅读 4,427 次

网友:

我一个学医的,可被领导派到专门负责计算机。我是什么都不懂啊,只知道装个系统,杀个毒。出了什么问题也只有干着急。最近磁盘阵列出了问题,去哪问,人家都不清楚,今天找到这个好地方,希望这里好心的老师们能帮帮我,谢谢了。
我用的是豪威科技公司代理的台湾公司出的Simbolo SCSI系列的SB-2990D磁盘阵列。
我一菜鸟,具体问题细节说不大清楚,就随便讲点重点:磁盘阵列做了两个RAID,每个都是5块硬盘。一个放的是数据库,访问量不大,一个放的是视频点播,访问量稍微大,但也顶多50人同时在线。上两个月用的时候,隔个什么三,四天偶尔出个问题,重启就好了,可从上个星期开始,开机没几个小时,服务器就开始弹“磁盘写入还是读取失败或是网络失去连接之类的,数据无法保存到某某”(具体错误提示见下图),出现这个提示后,磁盘阵列的E盘和F盘就无法访问了,然后我重启磁盘阵列,再重启服务器,好啦,数据都还正常。可过不了几个小时,就又出现这个提示,根本没法用啊。没办法,我把访问量稍大的视频点播关了,只开数据库,咦,管了两天,今天又开始出错了(数据库一天才10来个人访问啊)。
  想起两个细节,一是自从频繁出现这种问题后,我发现磁盘阵列上的10块硬盘灯有时会同时闪,或是一边的5个先闪,在另边的5个再闪。而且闪的时候并没有任何人访问硬盘上的数据,有时我把网线拔了仍有闪的情况。二是弹出这个错误框后,我设置控制器准备重启磁盘阵列时,经常会闪出“FAIL FAN”的提示,但马上又消失。以前好的时候从没发现FAIL FAN的提示。
再具体点的东西我也谈不出来了,本人实在太菜,请各位老师能提出简单有效的解决方案。谢谢了。

Sansky:

1、经常会闪出“FAIL FAN”的提示?
有可能是风扇出问题了,
2、图中给出的提示一般是系统的文件系统的MFS出问题了,可以用WINDOWS系统自带的工具查一下,进入命令行窗口,运行chkntfs  D:"  ,D表示“movie港台”文件夹所在盘符,如提示有问题,可用chkdsk D:/x命令来进行修复,由于在进行此操作时,系统必须将D盘先卸载,因此之操作必须在没有应用请求的情况下进行,当然也可以很简单在在存储阵列开机的情况下,重启服务器,服务器在重启的过程会会自动修复文件系统的错误,
3、在没有报警声(除非你的设备的报警系统坏了)的前提下,存储卷所对应的硬盘同时闪灯,一般都表示存储系统按到到访问请求。即使只有一台服务器与存储设备连接,偶尔也会出现闪灯的情况,这是正常的。
一般情况下,硬盘的灯为绿色,长亮表示没有数据读写,快闪表示有数据读写。当灯变为红色、黄色、或橙色,一般都表示有问题。当然各家设备对灯色的定义也不一定相同,你可以用存储设备管理软件查看一下,是否有diskfail、offline等错误信息,然后再做决定。

网友:

谢谢sansky老师的回答。
1、经常会闪出“FAIL FAN”的提示?
有可能是风扇出问题了,
请问风扇问题有可能是引发阵列延缓写入失败的原因吗?还有风扇问题,我该如何解决呢?除尘吗?上半年阵列没有放在机柜里,确实有点脏。
2、图中给出的提示一般是系统的文件系统的MFT文件出问题了,可以用WINDOWS系统自带的工具查一下,进入命令行窗口,运行chkntfs  D:"  ,D表示“movie港台”文件夹所在盘符,如提示有问题,可用chkdsk D:/x命令来进行修复,由于在进行此操作时,系统必须将D盘先卸载,因此之操作必须在没有应用请求的情况下进行,当然也可以很简单在在存储阵列开机的情况下,重启服务器,服务器在重启的过程会会自动修复文件系统的错误,
只要弹出了类似这样的提示,磁盘阵列就无法访问了。但类似这样的错误提示并没有局限在哪个文件夹,好像是出错后,用户访问服务器上的数据在哪个文件夹,就会弹出这个。也确实是重启后就恢复正常了,但往往管不了多长时间,又出问题。好像经不起访问似的。
3、在没有报警声(除非你的设备的报警系统坏了)的前提下,存储卷所对应的硬盘同时闪灯,一般都表示存储系统按到到访问请求。即使只有一台服务器与存储设备连接,偶尔也会出现闪灯的情况,这是正常的。
(没有报警声,报警系统也没坏)不是那种显示错误的灯再闪。阵列开机,不是要检测硬盘灯会闪吗。就是那种类似闪法。偶尔会闪一下。我奇怪的是没有人访问阵列,为什么会闪,而且是同时闪。为什么以前没有呢。

Sansky:

问题1:风扇有可能已经不转了,或者转速不足,或风扇的供电系统出现故障,时转时不转,可以换一个风扇试试。
问题2:有两种可能:
第一种是盘阵到服务器的链路有问题,连接不稳定,数据无法正常的写入存储卷。可以查看一下盘阵的SCSI接口、SCSI线、SCSI卡等是否松动,有可能的话将这些重新插一次,保证所有部件都连接安装好。
第二种可能是盘阵的两个卷与两个服务器之间的共享问题,原因是有两个或两个以的服务器对同一个存储卷具有控制权限(即有分区、格式化等权限),每台服务器都会在存储卷中写入一个文件系统信息(每个存储卷或盘的文件系统信息是写在该盘的0道,而不是写在服务器的系统盘里),从来引起卷的文件系统出错。当服务器检测到自己写入存储卷中的文件系统信息已经破坏时,就会提示进行磁盘修复,并在存储卷的根目录下创建一个名称以found000开头的文件夹,并将已经破坏的文件索引信息对应的文件转移该文件夹下,这时正在进行的读写操作就会停止,并给出如图所示的错误信息。存储卷的根目录一出现以found000为开头的文件夹就表示该卷的文件系统已损坏,必须用chkdsk D:/x进行磁盘修复或重启系统进行自动修复,修复完成后,found000文件夹中的文件会重新回到原来的路径下。
解决的方案如下:
      1)如果两台服务器上安装有sanergy等存储共享软件,那么盘阵的两个控制既可连接到一个服务器上,也可分别连接到不同的服务器上。
      2)如果两台服务器上没有安装sanergy等存储共享软件,且盘阵支持mapping功能,可在盘阵上设置一个服务器只能“看到”一个卷,然后将两个控制器分别连接到不同的服务器上。否则只能将两个控制器连接到一个服务器上,再在服务器上共享该服务器将“看到”的两个存储卷,另一个服务器和别的工作站通过网络来访问存储卷。
问题3:闪灯
按我自己的工作经验,讲述一下在先启动盘阵后启动服务器的整个过程中盘阵的闪灯情况。
第一步,启动盘阵。盘阵在开机时,一般来说,所有硬盘灯先是橙色快闪几下,然后绿色慢闪几下(电源系统检测),接下来,每个硬盘分别绿色慢闪(进行校验),每个硬盘都通过后,所有硬盘再绿色快闪几下,几秒种后,若没有报警声,或个别硬盘灯变色,则表示整个盘阵系统正常。
第二步,服务器开机后,进行硬件设备检测时,盘阵上的硬盘灯一般会绿色快闪两三下,表示系统已经检测到盘阵。接下来,进入系统时,磁盘管理系统会进行磁盘检测、文件系统检测,检测磁盘中保存的文件系统信息,并进行核对,这时盘阵会绿色快闪几下(如果注意过普通工作站的开机过程,也会发现硬盘灯闪的现象)。如果发现文件系统信息已发生更改,操作系统会提示是否进行修复(普通工作站突然掉电重启时,操作系统有时也会有这样的提示)。
第三步,进入系统,系统每隔一段时间会检测所连接到设备,检测设备的连接是否正常,就也就是盘阵为何会偶尔闪一两下的原因。
第四步,读写数据,对一个卷进行数据读写时,组成该卷的所有硬盘一般都会快闪,闪的时间与读写需要的时间相同。
以上是从开机到进行数据读写时步骤,不同的盘阵开机的表现可能略有不同。
当一个硬盘发生故障或offline时,该硬盘会一直保持橙色慢闪或红色慢闪,一般会有报警声。对应的卷还可以进行读写,只是读写效率会有不现程度的降低。
当多个硬盘发生故障或offline时,一般对应卷中的所有硬盘都会橙色慢闪或红色慢闪,有报警声,无法进行读写操作。

网友:

再次谢谢sansky老师的回答。我昨天把阵列搬出来除了尘,各种线卡也重新插了插。然后开机到今天上午都没出什么问题,但下午刚才又出现了上面的那种提示。我回想了一下,刚才机房在上课,学生们都在学习使用数据库,所以阵列的访问量大了。
我的阵列目前只接了一台服务器。但是是一个控制器控制两个RAID,去年有一个控制器坏了。我感觉,好象不管哪一边的RAID只要访问量一过大(其实也不大,相对而说),或是两个RAID同时有人频繁访问,就会出错。重启阵列后就正常。
(还有个细节,我的服务器里面好象没看见RAID卡,是一根数据线接在主板上,再插到阵列上的,我们系统管理员出去读书了,是他做的,我也搞不懂,唉!)

Sansky:

应该与访问量的大小没关系,首先,数据库的访问主要是I/O请求数,所需要的带宽其实很小,每次请求的数据一般只有几K。当然你可以测试一下阵列能提供的总带宽,可用sanergy软件,也可手工拷贝一个大文件按所用时间来计算带宽。

有可能是硬盘有问题,不知道你那个阵列有没有硬盘性能方面的监控软件,还有,如果是硬盘的问题,系统的曰志里会有报错信息,提示你某个卷的drive 2或drive 3有问题,

还有你用的产品我还见过,我没用过国产的东西,最好的解决办法还是咨询厂家。

1 条留言  访客:1 条  博主:0 条

  1. lsabb

    我想问一个问题,出现延缓写入失败时你的盘是无法访问还是根本就没有了盘符!
    如果是无法访问,试一下关闭磁盘延缓存储功能。看一下在磁盘管理有没你不能读取的盘。
    如果盘符没有,试着换一下磁盘接口,要根据你的阵列类型来换。

给我留言

Copyright © 【存储部落】 保留所有权利.   Theme  Ality

用户登录 ⁄ 注册

分享到: