存储 频道

没有不可能的故障,EMC DMX3前端口测试纪实

锁定故障链路,fcs0是害群之马

    我们一起查看了这台主机连接到存储的拓扑结构图,如下:

 与fcs0链接的主机端口和交换机端口

    从上面的列表中看到,有问题的链路fcs0,通过光纤交换机的25/24 port,连接到存储的8b0前端口,对症下药,我们登陆到该交换机,disable这个通道:“admin>portdisable 25”,这下fcs0故障链路应该被屏蔽掉了,我们又作了个速度测试,发现一切正常,故障果然就是出在链路fcs0上。。。。

 其余三个端口通讯正常

    至于为什么4个通道不正常,三个通道为什么反而正常了呢?这里还与EMC的负载均衡软件powerpath的分配策略有关系:

    原来,powerpath是用于增强存储环境中开放系统的运行性能的软件,主要作用就是智能分配并均衡多个通路的I/O负载,消除I/O通路中的单点故障。powerpath尽量让每个通道的IO均衡,结果,因为fcs0的IO上不去,所以就连累了其他三条链路,把大家的速度都拖慢了。

    找到了问题不代表解决了问题。我们接着一起来到机房,开始试着锁定故障关键点:

    我们把光纤交换机上的25/24口换到15/14口,问题依旧,判断光纤交换机没有问题

    我们把主机fcs0连接到光纤交换机的光纤线换掉,问题依旧,判断主机端的光纤线没有问题

    我们把存储8b0连接到光纤交换机的光纤线换掉,问题依旧,判断存储端的光纤线没有问题

    现在就只剩下主机fcs0的HBA卡,和存储前端口fa-8b0没有被骚扰过了。

    这时,一个EMC的工程师甚至直接建议我找IBM换fcs0的光纤卡,自信满满的说他们的前端口基本不可能坏的。然而,后面的测试就表明,看似不可能出现问题的地方,往往就出现了问题。。。。

0
相关文章