登录 / 注册
IT168存储频道
IT168首页 > 存储 > 存储厂商动态 > 正文

神秘失踪的硬盘--戴尔易安信解决方案

2018-04-24 16:09    it168网站原创  作者: 厂商动态 编辑: 厂商动态

神秘失踪的硬盘--戴尔易安信解决方案

神秘失踪的硬盘--戴尔易安信解决方案

  这家公司目前一共有3套DIY的开源的软件定义存储(以下简称SDS)在同时运行,3个节点/5个节点/25个节点各一套,3节点和5节点的SDS均是采用利旧的服务器,为开发测试平台提供服务。25节点的SDS中有一半是利旧的服务器,一半是新购的服务器,为OA、影音文件管理等平台服务。SDS软件是我公司运维人员安装部署的。

神秘失踪的硬盘--戴尔易安信解决方案

  最初出现问题的是5节点的那套,业务系统在使用过程中,监控提示错误信息,经诊断,是一个节点上的一块硬盘告警,硬盘处于只读状态,虽然SDS的多节点容错架构并没有影响应用的正常运行,但硬盘是数据的根本,一定要找到是什么原因造成的。就在大家开会讨论对策和诊断方案的时候,管理员又告知,在SDS下的这块硬盘不见了。。。神秘失踪?赶紧报修硬盘,800迅速介入,收日志,检查系统错误,没坏啊,硬盘好好的闪烁着绿灯,奇怪了,硬盘去哪了?排查了架构里每一个环节,居然都显示正常,但硬盘就是不见了......最终万般无奈的情况下,重新启动了一下这个节点,居然回来了,硬盘又识别到了。

  故事似乎真的还在继续,就在我们还在思考这个问题的根源所在时,25节点的集群居然真的出现了类似问题,先是一块硬盘只读,还没等到重启接连第二块硬盘也告警,在SDS集群里两个硬盘神秘消失。这可不是那5个节点的测试系统了,由于OA运行在这套SDS集群上,公司内部流程没办法通过系统造成,各个部门的人都跳出来让运维部门尽快解决问题。于是我们想按照之前成功的办法试着尝试重启节点,但问题比我们想象的还严重,重启后不但SAS盘没找到,作为缓存的SSD其中有2块也不见了。这着实惊到了客户,马上开Case让原厂后台介入,查找问题所在。但问题又来了,这套SDS系统是客户自己搭建的,服务的真没有。。。

  此时,秉着对客户负责的心态,Dell EMC通过内部资源,找来各路SDS的大牛们,积极帮客户找到问题所在,避免后期使用再出现问题。经过各路高人的诊断,我们发现了一个有趣的问题,出现问题的SAS盘和SSD盘都是后期用户自己购买添加的,他们磁盘类型在SDS的兼容表里,而其Firmware版本却不在,而原来第一次部署的各个节点的磁盘Firmware是和SDS完全匹配的,所以也没出现这样的问题。

  经历了这样一个惨痛的经历,我们已经意识到,虽然开源的DIY SDS采用节点集群作为容错,但整体架构还是有安全隐患的。于是经过讨论后,我们放弃原全部开源的想法,重新考量了Dell EMC公司推荐的全商用的VxRail超融合架构和半开源半商用的vSphere+VSAN方式,最终选择了vSphere+VSAN+RP4VM+存储的解决方案,具体如下图所示。

神秘失踪的硬盘--戴尔易安信解决方案

  方案特点1:

神秘失踪的硬盘--戴尔易安信解决方案

  虚拟机方式,部署快速、简单;

  专为虚拟化环境设计;

  与vCenter无缝集成;

  录像一样记录VM IO变化;

  VM任意时间点恢复;

  一致性组保证应用一致性;

  存储无关、网络无关;

  支持同步和异步保护;

  支持本地和远程容灾。

  方案特点2:

  通过vCenter Plug-In在vSphere Web Client界面管理。

神秘失踪的硬盘--戴尔易安信解决方案

  搭建完毕后,我们在这套系统上做了大量的实践演练,通过CDP刻录机一样的恢复颗粒度,能够找到最近的时间点,并且在灾备的SCv3000上可以直接启动虚拟机,业务也可以成功切换到存储上,几乎没有数据的损失。

  总结,无论是开源还是商用的SDS,其兼容性要求都很高,部署前需要检查各种硬件的型号和Firmware(包含磁盘、1Gb网卡、10Gb网卡、Raid卡等),如果不经过严格的兼容测试,会有很多意想不到问题出现。所以客户如果想使用SDS来承载关键业务,建议选择由各大厂家提供的各种超融合或融合架构,并且通过有效的保护方式进行灾备。

  • IT168企业级IT168企业级
  • IT168文库IT168文库

扫码送文库金币

编辑推荐
系统架构师大会
系统架构师大会
点击或扫描关注
IT168企业级微信关注送礼
IT168企业级微信关注送礼
扫描关注
首页 评论 返回顶部