2、实现数据资源中心绿色存储的关键技术
实现绿色存储需要先进的绿色存储技术支撑。绿色存储技术是指从环保节能的角度出发设计和生产性能功耗空间比更高的存储产品,降低数据存储存储设备的功耗,降低产品所产生的电子碳化合物,提高存储设备性能,降低建设成本和运行成本。目前,常用的绿色存储技术主要包括存储虚拟化、MAID、重复数据删除、自动精简配置和分级存储等。
2.1存储虚拟化
存储虚拟化是建设绿色数据资源中心的一项关键技术。数据中心的每台服务器都有自己专属的存储空间,服务器之间很难“借用”存储空间,造成不同存储空间的利用率差别很大而总体利用率偏低。虚拟化技术可以利用不同设备的容量来建立一个虚拟化存储容量池,然后解决各个设备的数据存储问题。虚拟化即把物理资源转变为逻辑上可以管理的资源,将不同的存储作为单个集合的资源来进行识别、配置和管理,以打破物理结构之间的壁垒。通过存储虚拟化,所有的资源都透明地运行在各种各样的物理平台上,资源的管理都将按逻辑方式进行,完全实现资源的自动化分配,应用程序将不再需要知道它们的数据保存在哪个磁盘、分区或是存储子系统中。
存储虚拟化包括带内(在数据通道中)、带外(拥有代理服务器和元数据控制器,在数据通道之外)和分离路径(带内和带外的结合体)3种方式。其中:带内(In-band)又称对称存储虚拟化技术,带内方法主要在主服务器和存储设备之间实现虚拟功能,是传统的产品和存储系统经常采用的方法;带外(Out-0f-band)又称非对称存储虚拟化技术,带外存储虚拟化设备安装在主机和存储之间的数据通道之外,因而主机中需要安装专门的软件;而分离路径存储虚拟化技术综合了带内和带外技术的优点,在与软件绑定的开关或者产品中采用存储服务模块或者适配器实现存储虚拟化。通过存储虚拟化,实现存储系统的整合,提高存储空间的利用率,简化系统的管理,保护原有投资、提高运营效率、提升服务水平。
2.2 MAID
MAID(Massive Array of Idle Disks,大规模非活动磁盘阵列)。MAID最初的理论依据来自“80/20”定律,具体来说就是80%的访问活动围绕着20%的物理存储进行。据此,人们认识到:那些暂时没有数据被访问的磁盘驱动器,完全可以进入能耗相对较低的待机状态,甚至完全关闭,需要访问时再“唤醒”也来得及,从而达到节能的效果。例如,如果一个系统在2分钟内没有读取数据时,读取头就会自行停留至没有存取数据的地方,以节省读写头的功耗;过了10分钟后若仍没有读取,就会进入下一阶段,硬盘转速将从7000rpm降低至4 000rpm;若过了15分钟后仍没有读取数据,就会进入第三阶段。硬盘会停止运转,等到系统呼叫时再启动。采用MAID的系统通过仅在需要的时候打开电源的方式降低了系统的运行成本,提高了硬盘的可靠性,有利于增强数据保护。
2.3 自动精简配置(Thin Provisioning)
在传统的存储系统中,当某项应用需要一部分存储空间的时候,往往是预先从后端存储系统中划分出一部分足够大的空间预先分配给该项应用,即使这项应用暂时不需要使用这么大的存储空间,但由于这部分存储空间已经被预留了出来,其它应用程序无法利用这些已经部署但闲置的存储容量。这种分配模式一方面使闲置的存储数量不断增加,系统总体拥有成本升高;另一方面用户不得不购买更大的存储容量,才能适应环境,成本进一步加大№j。自动精简配置是一项新的容量分配的技术,不会一次性的划分过大的空间给某项应用,而是根据该项应用实际所需要的容量,多次的少量的分配给应用程序,当该项应用所产生的数据增长,分配的容量空间已不够的时候,系统会再次从后端存储池中补充分配一部分存储空间。
实际上,自动精简配置的工作原理与部分储备金体系的原理相似,银行无需一次支付所有的储备金,因此也没有人一次动用所有的存储资源。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,提高磁盘存储空间的利用率,推迟用户磁盘扩容的时间,减少磁盘购买数量,提高存储性能,减少环境对存储的压力,降低总体实现成本,从而降低系统的整体能耗、冷却成本、以及二氧化碳排放量,符合绿色存储的要求。
2.4重复数据删除技术(Data Deduplication)
为了确保业务的连续、用户的稳定,对关键数据进行备份是必不可少的,在每一个数据资源中心,日复一日的备份操作会产生大量的冗余数据,占用大量的存储空间,基于此,一种新的数据管理方式一重复数据删除技术应运而生了。该技术针对不同的存储介质、不同的操作平台,引用一种基于数据块、可以人为控制数据空间的方式来删除冗余数据,只为相同的数据保留一份副本,其他被删除的重复数据将由一个指向元数据的的指针所代替,可以大幅度地节省存储空间。
重复数据删除可以对文件、数据块或者字节级进行操作。实现重复数据删除的方式主要有两种:第一种在数据写入磁盘之前进行判断,发现重复数据便以指针代替,称为实时处理(in-line),优点是所需磁盘空间较少。缺点是对CPU处理能力要求高;第二种在数据写入磁盘之后才启动去重过程,即所谓的后处理(post-processing),优点是对CPU处理能力要求不是很高,缺点是必须保留较大的磁盘空间作为临时工作区。不论采用哪种方式。通过重复数据删除都可以极大地优化存储系统,减少数据量,从而降低能耗以及减少产生的热量。
2.5 分级存储(Hierarchical Storage Management)
事实上,任何一种数字文献资源都具有生命周期。在数据刚生成的一段时间内,访问频率最高,为读者带来的使用价值也最高;随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量。不同生命周期的数据是提供给不同使用对象的,这种以最低的成本获得最高使用价值的方式,就是对数据进行分级存储。信息生命周期管理(ILM)是实施分级存储的理论基础,它根据业务数据重要性和数据优先级进行数据分类,以此确定相应的数据所需要的存储系统,进而提高整个系统的安全级别,做到重要数据重点保护,对关键业务、关键数据实施容灾保护。同时,通过数据分类,区分出在线数据、近线数据和离线数据,把在线数据存放在快速的FC/SAS磁盘驱动器上,近线数据存放在相对较慢的SATA磁盘驱动器上,而将离线数据转移到磁带存储离线保存。
以高等学校图书馆为例,其数字资源既包括购买的商业数据库、共建的专用数据库以及自建的特色数据库等,数字资源拥有量小的数T,多的数十T甚至上百T。如果将所有的数据都储存在昂贵的磁盘中,并全部提供365*24小时服务,将会极大地增加运行和维护成本。如果根据分级存储理论,将不经常访问的数据按指定的策略自动迁移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,就可以获得较好的总体性价比,达到节能降耗、降低运行维护成本的目标。