存储 频道

没有不可能的故障,EMC DMX3前端口测试纪实

    【IT168 专稿】最近公司正在进行EMC DMX-3的测试,在测试过程中发生了很多有意思的事情,以后笔者会跟大家分享更多的测试细节。就在前不久,笔者和EMC工程师一起解决了一个DMX3前端口通讯故障的问题。问题本身有一定的偶然性,问题的解决也出人意料,不过解决的过程相信对大家还是有一定帮助,因此写下来与大家一起分享。

问题发生,DMX3前端口速度大失水准
    问题发生在测试的EMC DMX3安装完成之后,本来安装完机器后进行端口速度测试是例行公事了,但是测试的结果却和我们的期望大相径庭,DMX-3每通道I/O速度出奇的慢,每秒不到10M,这可绝对不是DMX-3应有的速度啊?一定是什么地方出现了问题!

    原来,我们一般用DD命令进行连续写的速度测试,命令如下,其中rlv_test是裸设备:
    #time dd if=/dev/zero of=/dev/rlv_test bs=1024k count=10000

    这时候,通过powermt watch的观测结果如下: 

四条通道I/O不正常

    从上面的观测结果我们可以发现,fscsi0到fscsi3一共4个通道,每个通道每秒的IO个数才8个,写速度每秒钟不到10M。

    到底什么原因让DMX3的端口速度大失水准?这下又把我的好奇心勾引起来了,下决心好好查找一下故障的原因。为了稳妥起见,解决问题的首要还是要求助厂家。一个电话打到EMC支持中心,将故障问题报上去以后,EMC工程师赶到了现场。

    EMC的几个哥们儿也是通过dd命令到文件系统,做了一个类似的测试,如
    #time dd if=/dev/zero of=/u01/test.dat bs=1024k count=10000

    这时通过powermt watch的观测结果如下:

fcs0链路I/O不正常

    大家可以看见上面的测试结果显示出fscsi0连接的链路1,才8个IO的时候,队列中就有一个等待,做文件系统测试的时候,就基本没有IO。这时候,EMC哥们儿判断:多半是其中一个链路有问题。

    这里可以看到 EMC的工程师不愧是厂商级别的工程师,没有把问题定位在文件系统与裸设备的差别上,甚至都不怀疑裸设备的硬件问题,而是直接定位到了链路上面。从后面的操作看来,这个判断还是非常准确的,但我们决定通过进一步操作证实故障判断。

0
相关文章