【IT168 资讯】
存储百家谈
从体系结构方面看,以P2P和集群方式为主的分布式存储将异军突起;而从应用的角度看,分级存储、CAS等后来居上。长远看来,底层存储介质革新对于存储技术发展所带来的影响将日益明显。
以前,技术主导IT产业发展。但是现在,应用却成为主导IT产业发展的关键因素。近几年存储产业发展迅速,目前存储已经成为IT基础架构的重要核心。尽管近年来传统IT市场走势低迷,但对存储的需求依然与日俱增,推动了整个存储市场的快速增长。那么,未来,哪些技术会影响存储产业的发展呢?本报记者采访了专门从事网络存储技术研究的清华大学博士生导师舒继武教授。
分布式存储异军突起
从体系结构的角度看,分布式存储将是存储领域影响最大的一个发展趋势。所谓分布式存储系统,就是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
分布式存储目前有两个研究热点:
一是基于P2P的分布式存储。基于P2P的分布式存储系统是一种基于对等网络技术的数据存储系统,它可以提供高效率、可扩展、鲁棒和负载平衡的数据存取功能。对于存储系统,用户关心数据的吞吐量以及定位、搜索和路由的效率。传统的集中方式无法满足大规模数据存取的要求,就需要采用新的体系来管理系统中的数据。基于P2P的分布式存储系统可以利用大量节点的计算和带宽资源用于数据存取,具有弱结构化、没有单一故障点、可靠性好、易于扩展、数据吞吐率高等优点。不过,基于P2P的分布式存储系统仍有很多技术问题需要解决。
二是集群存储。服务器集群技术已经非常成熟,应用也非常广泛,效果也非常显著。应用集群技术,不仅可以有效提升数据中心服务器系统的稳定性、可用性及可管理性,同时,允许用户使用价格相对低廉的配置(如刀片)捆绑来替代昂贵的单块集成电路的高端服务器,在不影响性能的情况下节约了存储成本。在传统的集群系统中,每一个节点服务器都有自己的本地存储,这些存储资源并没有被统一利用,在节点之间也没有一致的视图。如果能够将集群中除了计算资源外的存储资源也利用起来,既可以提高存储资源利用率,又可以互为容错与备份,这是集群存储的内在要求。目前市面上出售的存储集群产品主要分为两大类:一类是集群文件系统,一类是建立在集群的架构之上的独立硬件设备。不过,集群存储效率有待提高。
高度关注存储安全与可靠性
近年来,网络存储安全存在着太多威胁,包括数据更改、破坏、窃取、拒绝服务攻击、恶意软件、硬件窃取,以及未授权访问等。要保证SAN(存储域网)的安全,必须逐个歼灭这些可能威胁。存储安全是指在数据保存上确保完整、可靠和有效调用,通常包括两层含义:一是存储设备自身的可靠性和可用性(设备安全),通常把它称为存储安全;二是数据在访问路径上的安全,一般称为线上安全。虽然国际上也有一些解决存储安全问题的产品与系统,但是实用性较差,还不能解决用户问题。
存储系统安全与可靠性有关。如果存储磁盘坏了,系统还能否应用?能否相互备份?这也是用户关心的一个问题。因为存储可靠性是大多数用户在决定选择哪款产品前最先考虑的因素,但这又是一个不好进行量化对比的属性。
从应用角度看,分级存储、CAS等后来居上
与应用特点结合的存储技术日益成为存储业界的热点,尤其是基于固定内容寻址存储(CAS)、分级存储等技术正在迅速发展。
随着数字化改革浪潮的逐步推进,全球信息量每年以2倍的速率持续快速成长,其中50%的新生数据都为固定内容。所谓固定内容是指必须长期保存内容不可改变的资料,如公文影像档案、信用卡申请书、客户金融贷款申请相关文件、电子文件、数字X光片、数字医学核磁共振造影、影片、电子邮件、支票影像档案、卫星图片等。固定内容的迅速增长需要一种可以实现安全地在线存储和长期获取这些信息的新型存储――固定内容寻址存储(CAS)。目前,数据库等结构化的内容占10%,非结构化数据内容占到90%。现在,不少企业都推出了相关的产品,但是许多技术的实用性有待提高。
所谓分级存储,就是根据数据不同的重要性、访问频次等指标,分别存储在不同性能的存储设备上,采取不同的存储方式。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性,通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。