存储 频道

征文:亲历惊心48小时抢救35亿交易数据

    IT168“我的存储人生”原创征文活动正在火热进行,征文启事请看:IT168我的存储人生征文活动启动

    【IT168 征文专稿】以前总听说老大们遇到DOWN机的事情怎样怎样,多么急迫怎样怎样,但却一直没有感觉,总以为老大们言过其实。但是前不久一次真实的经历,让我终于对存储工程师这一职业有了更深层的认识……

    起因是某月某日某时,我的一个哥们准备在新上的IBM DS4800盘阵上做RAID,刚刚做完时钟同步,就看见客户方所有的技术人员一阵风似的全部冲进了机房,带头的主管劈头就是一句:你们干什么了?不待我们缓过神来,6、7个人就开始疯狂的查找各自负责的部分。“赶快,赶快,查找原因!”

    在过后的几个小时情况调查的时候,我们终于知道,当时的盘阵上面存储着该客户35亿的交易记录和10条要人命的信息!然而,当我哥们完成时钟同步的操作后,盘阵上的所有Volumn Group全部不见!

噩梦开始,35亿交易记录不翼而飞
    只见客户方6、7个人分别查找各自的原因,数据库配置,光纤交换机,网络,主机上的应用,甚至电源、机柜都一一仔细检查过,统统没有问题。于是,所有人的目光都转向了我们:你们到底做了什么?

    我们一下子也没回过神:“只是,只是在还没有使用的盘阵上做了时钟同步,怎么会和生产系统扯上关系?”

    大家的目光随即投向了连接KVM和盘阵的HUB。咦?上边怎么还有两根线缆?那么我们现在操作的这两根线缆是?……生产系统盘阵上的!而且使用的是默认IP!!.....我的天!我们前面的操作是做在哪里了啊?为什么没有出现IP冲突?

    这时我们才意识到我们犯了什么样的错误:我们将KVM连在了生产系统的HUB上,对客户新上的盘阵DS4800和原有生产系统上的盘阵DS4300同时做了一个DEMO,并进行了时钟同步,于是,所有的Volumn Group掉下去了,生产停止了……

0
相关文章