已登录 首页 | 产品报价 全国行情 产品排行榜 | 渠道商情 商铺大全 | 新闻 评测 专题 下载 | 培训 视频 高端访谈 | 产品论坛 MY168 圈子 装备
IT168.com
当前位置:IT168首页 > 存储 > ${article.CurrentPageTitle}
[收藏此页] [打印] [推荐] [评论]

专家从故障中找到的存储真谛

责任编辑:李隽作者:网络   2008-05-15   
【内容导航】
  企业和研究人员们特别关心的问题是介质故障率,也被称作无法修正的读误差或者潜在介质故障。虽然这个问题并不是经常发生,但是时不时尤其是当里在使用Peta级系统时还是会不时发生这样的故障并引发重要问题。

  例如,Gibson解释了这样一种情况:

  他说:“让我们假定里在一个RAID种配备了14个磁盘,而且其中一个出现了故障。现在你需要读出13个磁盘的所有内容。 这个磁盘的容量可能是1TB。也就是说你要想重建系统必须读出13TB的数据。 一般,在数据读出量达到10TB到100TB之间时可能会出现一次介质故障。因此,也就是说在更低质量驱动器的重建过程中,你很可能无法读到所有的内容。 可能只有一个扇区读不出。即便是采用更高质量的驱动器,在10次重建中仍可能会遇到1次这种问题。”

  “如果你在重建过程中无法读出某个磁盘扇区的内容,哪怕你只丢失了十亿分之一的数据,你也无法进行重建。在目前,当你在重建过程中遇到故障时,是没有任何解决办法的。然后你可能不得不去找厂商,然后由生产厂商的技术人员设法弄清楚是哪个扇区出现故障,然后想办法修复它。”

  那么厂商们为什么不能进一步减少、消除或者补偿潜在介质故障呢? Gibson说,问题是市场希望能够从同样的投资中获得更多的信息。至于具体的做法,厂商们必须将数据更紧密地包在一起。 如果它们不需要保证返回给你的数据的正确性,它们可以迅速返回。因此,它们不能返回正确数据的比率是它们可以以多快的速度来提升容量以及在同样的投资下能够提供给你多少数据时所面临的一个限制。”

  厂商们可以将数据压缩得更紧密一些。但是Gibson说,如果厂商们那么做的话,可能就会发生故障率上升的情况。因此,它们在进行数据压缩的时候,必须控制相应的故障率处于可接受范围内。

  结果,包括Panasas公司在内的大型存储设备厂商将开发新的保护机制来应对万一发生介质故障时将故障的部分隔离开,对于企业用户们来说,这可是大大的好消息。

  从失败中吸取教训

  在Peta级数据存储业界的另一个重大进步是计算机故障数据存储机构(the Computer Failure Data Repository)的建立。最终用户们可以在这里发布它们的故障记录供其他人研究和学习。Gibson说,那些信息是很重要的,因为改善系统质量的正确方法是真正理解它们是如何发生故障的。

  Gibson说,虽然计算机问世已经有许多年了,但是大多数计算机科学家对于故障机制的认识却比较有限。

  由于厂商们常常不愿意或者不能够共享故障数据,因此计算机故障数据存储机构鼓励并依赖最终用户来提供那些故障数据,比如Los Alamos 国家实验室 、太平洋西北国家实验室、劳伦斯伯克莱试验室和国家能源研究科学计算中心等。Los Alamos国家试验室已经提供了试验室的23个不同集群在9年时间中所遭遇的故障的数据,事实证明这些数据对于研究人员们来说是非常重要的。

  他认为,通过弄清楚大型计算机系统或者群集系统为什么以及如何发生故障,厂商们就可以开发出相应的新技术来减少故障,这样厂商们就可以在市场能够承担的价格范围内生产出更大、更快、更高效和更可靠的计算机和存储系统。
上一页1
2
下一页
收藏到: 添加到“百度搜藏”添加到“QQ书签”添加到“Google书签”添加到“Yahoo收藏”添加到“和讯网摘”
【内容导航】
本文欢迎转载,转载请注明:转载自IT168 [ http://www.it168.com/ ]
本文链接:http://storage.it168.com/t/2008-05-15/200805151331421_1.shtml
存储相关文章   存储
  • 暂无
友情推介