存储 频道

没有不可能的故障,EMC DMX3前端口测试纪实

离奇的故障原因
    硬件工程师先换了8b0的前段口,问题依旧

    硬件工程师更换了8b0的所在的板卡,但是不包括cpu模块,问题依旧

    硬件工程师更换了整个前端板卡,包括cpu模块,问题依旧

    这下我们全部都傻眼了。其实,在更换整个前端板卡前,EMC的那个软件工程师就说过:他们最担心的问题就是更换了硬件之后,问题依然存在,因为硬件看起来确实是没有问题的。他说完这句话,我也隐约感到不妙。果然更换了前端卡问题依然没有解决,我们都晕了,问题在哪里?看起来前端卡并没有问题。

    这下我们还有最后一根救命稻草:开case向EMC总部求助。工程师开case的速度还是非常快的,但是case必须要等到老美上班才能有响应,而老美上班一般都是晚上12点以后了。我于是先回家了,EMC工程师继续加班。第二天上班,EMC软件工程师也过来了,回答是,老美确认硬件没有问题,把问题丢给了操作系统,认为操作系统不兼容。

    但是,连接这个存储的有多台主机,且都采用了同一版本的操作系统,为什么只有这一个主机这一个端口出现这个问题呢?不过既然老美这样说了,我决定让EMC工程师把这个8b0连接到另外一个主机上做测试。也就是拿另外一个主机的fcs1与8b0连接,把这个DMX3的硬盘认到另外一个主机上。

    这时,EMC的工程师告诉我,他本来想测试一下跟8b0相同CPU接口的8b1,但是光纤交换机上没有显示8b1在线。这下,我心里仿佛开了一个小窗,一丝亮光透了进来。fa-8b1我们是接了光纤线的啊,虽然仅仅是一根备用线并没有在使用状态,但是系统上也应该显示fa-8b1的状态啊?我再次检查了一下交换机的连接信息,确认fa-8b1没有连接进来,而其它的端口都是正常的。

    原来,这个光纤连接是前几天另外一个EMC安装工程师做的,但是我还没有来的及在交换机上做检测。难道当时那个工程师还没有把这跟线配通?难道这个线有故障?我隐约觉得这里肯定有蹊跷,但是也仅仅只是模模糊糊的预感。

    我打电话给机房的一个管理员,让他更换一根连接8b1到光纤交换机的光纤线,与此同时,EMC的工程师也把8b0端口与另外一台主机连接上了,开始测试,正常。。。。

    再把8b0端口挂回最初出错的主机端口,测试,正常。。。。

    这样已经可以基本排除操作系统的问题了,问题极有可能就是那根8b1的光纤线,我通知机房管理员干脆把这根线拔了,再测试,一切正常。。。。

0
相关文章