存储 频道

信息生命周期管理

  【IT168 资讯】

  数据的生命周期

  了解数据在其生命周期中的各种变化正逐渐成为实现有效数据管理日益重要的一部分。随着时间的推移,数据会发生什么变化?数据的使用会不会减少?数据的价值是增加还是下降?为什么我们保存的数据比以前更多而且保留的时间更长?什么状况下表示数据应该退休了?存储管理需求会随着数据生命时期的变化而改变吗?如果数据是如此众多公司最有价值的资产,为什么我们知道的却只是沧海一粟?

  为了理解应该如何管理数据,以及数据在其有效期内应该存储的理想地点,我们需要为这些重要问题找到答案。特别要指出的是,数据重用的概率历来是认识数据非常好的存储地点最有意义的衡量标准,而且目前依然是实施有效HSM(分级存储管理)的一个关键标准。15年来HSM一直是大型机的一项集成存储管理技术,而现在它也日益受到Unix和NT系统的青睐。对大多数的数据类型来说,数据的引用次数会随着数据生命周期的推移而显著下降。根据这项基本的观察结论,我们可以把不太活跃的数据迁移到较低成本的存储级别,从而为更具成本效益的存储管理打下基础。25年来存储管理一直有一项基本原则,那就是随着数据“老化”其访问频率也越来越低。


图1

  我们正在目睹数据生命周期中的一个新效应:数据总量会随着数据时效性下降而增加。和过去不同,现在固定内容和归档存储已经成为存储工业增长最快的领域。在20世纪90年代末.com盛行的时代,存储需求年增长率超过100%。今天存储工业正以大约每年50%到70%的增长速度生成新数据。另外,由于前几年人们习惯于过度采购,造成目前某些存储需求必须利用未被使用的现有存储容量。即使不考虑增长速度,数字格式数据总量的持续增长也已经令存储管理的形势日益严峻,所带来的后果就是:存储的数据越来越多,存储期限也越来越长。这类数据中的大部分都以数字格式存储,并且缺乏有效的存储管理服务。

  数据常常被“永久地保存”,所以那些因失去价值因而应该被删除的数字格式数据所占的比例迅速下降。大多数情况下人们认为这种方法比管理数据整个生命周期更为容易。数据存在或生成3天后,它被重新使用的概率通常会下降50%。数据生成30天后,重用的概率一般要下降到只有几个百分点。电子邮件和医疗成像方面的应用很好地说明了这一数据老化过程中发生的变化。除了所购买的磁盘和磁带之间每单位存储价格的实际差异之外,从环境因素(电力消耗)和安全问题考虑,将活跃程度极其低下的文档和不活跃数据长期保存在磁盘上也是不经济的做法。本文最后的“存储消耗规律(经验、观察或评估值)”表进一步总结了众多的存储消耗和利用模式,这些模式将为数据生命周期管理施加更大的压力。

  数据保存需求的改变

  当近线存储(Nearline)概念在20世纪90年代逐渐被广泛接受之时,人们普遍相信归档是数据在被删除或失效之前的最后状态。此后,数据保留1至2年又被视为保持数字格式数据可用性的合理时间期限。15年后的今天,游戏和规则都不同往日,美国政府的新法规“萨班斯-奥克斯利法案(Sarbanes-Oxley Act)”以及HIPAA(健康保险便携性和责任法规)中关于数据传输与保存的要求已经改变了我们看待数据生命周期的方式。几个主要的医疗保健提供商都面临着未来几年将生成和存储超过500TB的数据,需花费的管理时间相当于一个人的一生再加上7年的光阴,而这个时间期限则可能超过100年。

  SEC(美国证券交易委员会)17a-4(t)条款规定了数字格式数据存储时的归档需求,其中包括:使用什么类型的存储格式,数据应该保留多长时间,以及必须存储在何处,存储多长的数据拷贝等等。数据生命周期的“晚年”并不是象从前那样会萎缩,而是膨胀,并且现在的数据保留政策均以数据的价值和法律法规为基础,而不仅仅是数据被引用的概率。对终生数据管理来说,“重要的不是数据是否会被使用,而是数据是否在那里。”存储领域中的这种变化呼吁我们推出基于数据价值的新管理政策,并制订一个标准而通用的数据迁移需求分级方案,要知道,所有的数据并不是生来平等的。

  生命周期管理和政策

  如何能够真正实施信息的生命周期战略?对数据的一生进行管理是否实际可行?如果不大幅提升现在的数据管理水平这一点就不可能实现。经过进一步的观测,我们发现数据的增长速度越来越快,甚至超过了我们的管理能力。随着存储网络和SAN(存储区域网络)部署的继续发展,不同存储等级之间的非常好的存储地点和最优化迁移将自动浮出水面而无须人类的参与。由于这些功能逐渐脱离应用服务器,它们将在存储系统内部作为“频带内(in-band)”或“频带外(out-of-band)”功能被执行,并且很可能通过刀片服务器或设备实现。业界将需要并发展高级的策略驱动型SRM(存储资源管理)软件,以便衡量引用模式并触发管理策略,并且结合HSM或类似技术,最终将数据在其生命周期内迁移至非常好的存储地点。在未来,SRM将可能成为测量数据价值的非常好的存储管理工具。


图2

  数据生命周期管理亟需解决方案

  理想情况下,数据生命周期管理解决方案对应用和用户应该完全透明,只要能够访问到数据,应用和用户均无须了解数据的存储地点。在一个分层存储迁移策略中,数据一般从昂贵的磁盘迁移至更便宜的在线(online)存储或磁带上,存储管理员应该无须通知用户他们的文件被迁移到了新地点,也不需要进入客户的系统中修改指向文件地点的指针。同时,理想状态下数据在存储等级之间的迁移也应该是透明的,用户甚至不知道他们的数据已经被迁移至更便宜的存储媒体上。

  数据生命周期管理解决方案需要跟踪数据被迁移到的新地点,并且在用户或应用发出请求时保证数据的可用性。目前普遍采用的一种技术是将文件属性从文件的实际数据中分离,当数据被迁移时,该文件在本地系统中的属性仍然包含了所有关于此文件的重要的描述性信息(新地点、文件名、安全信息等等),并且数据现在存储于另一个成本极低的存储子系统中。当某个应用或用户检索已经被迁移至更低存储等级的文件时,管理软件就会在新的迁移目的地检索该文件。

  智能存储架构

  对于在存储等级内迁移数据(如上所述)需要增加服务器I/O吞吐量所带来的总体成本,是否要高于仅仅将数据不限期地保留在更昂贵的磁盘上并且根本不进行迁移,现在我们还不太清楚,但我们确实知道这样做的管理开销和I/O负担非常沉重。存储工业正在形成一个所谓给服务器减负的新潮流,并成为这个行业的主要发展方向,即将存储管理功能从服务器中分离出来而转移至存储架构上,以便减小主机资源消耗并提高存储管理速度,从而允许直接的设备到设备的数据传输,并且无须支付高昂的服务器I/O管理费用。

  最初人们设想的脱离服务器的应用指的是无服务器备份和恢复,无服务器备份象征着大型数据中心在运作上的一个根本转变,允许企业随时进行各种操作诸如完全备份、快照和增量备份,而不需消耗应用服务器的计算和I/O带宽资源。利用无服务器备份,服务器激活备份或恢复功能,但是并不会阻塞数据迁移的路径。现在将数据通过专用网络在磁盘阵列和自动库之间直接进行迁移从而实现备份或恢复的情况非常令人满意。而在进行无服务器恢复时,数据直接从磁带迁移至磁盘中,从而令存储管理员获得显著的管理优势,进一步加强了SAN基础设施的优越性。

  在脱离服务器或无服务器备份之后,人们希望HSM成为进入SAN设备或刀片服务器最主要的方案,从而令HSM重现生机。正如上文所述,无服务器或脱离服务器的存储管理技术将最终超越备份和恢复技术的范畴,融合镜像、复制、快照拷贝和各种虚拟化功能。高级SRM产品允许主动或预想的数据迁移,进一步优化了存储等级。通过单一界面利用一套管理工具和应用软件,存储管理员可以高效管理更多的存储,最终缩小已安装的存储容量与实际所能管理的存储容量之间的差距。
 

  结语

  随着存储产品越来越便宜,相应的管理却日益困难。与此同时,不论经济还是其它紧迫的全球性问题是否存在,数据的价值都在增长。现在数据的价值随着数据的老化而发生着显著的改变,所以存储管理成为一项长期的任务。数据最初的存储地点不一定就是最终被存储的地点。每个人都可以讨论数据生命周期管理的问题,而解决这一日益严重的问题,研究和推出解决方案的重担将落在业界最优秀人才的肩上。考虑到数字格式存储预期的增长速率,我们已经错过了起步时机。

表:存储消耗规律(经验、观察或评估值)

存储需求年平均增长率(所有平台,主要生成数据)

50-70%

Unix 、 Win2K 和 Linux 系统上存储的磁盘数据总量(评估值)

85%

z/OS 的平均磁盘分配水平(使用 DFSMS 的 eSeries 大型机)

60-80%

iSeries 的平均磁盘分配水平( AS/400 服务器)

60-80%

Unix/Linux 的平均磁盘分配水平

30-50%

Win2K/NT 的平均磁盘分配水平

20-40%

块数据与文件数据的比率

1.5:1

磁盘驱动器容量年平均增长率

60%

磁盘驱动器性能年平均增长率(查寻速度、等待时间和数据速率)

<10%

自 1956 年第一台磁盘驱动器以来每个制动器的磁盘驱动器容量增长倍数

36,260x

自 1984 年第一个盒式磁带以来原产盒式磁带容量的增长倍数

1,250x

多用户服务器平均利用率(繁忙度)

25-40%

虚拟磁带系统的盒式磁带平均利用率

60-85%

每个管理员所管理的磁盘数据范围估计值

(分布式系统- Win2K 、 Unix 和 Linux )

400-750GB

每个管理员可管理的磁盘数据估计值( z/OS 、大型机)

>30TB

每个管理员可管理的自动化磁带数据范围估计值(所有平台)

40TB-1EB (根据磁带库大小会有显著不同)

电子邮件信息大小的平均 CAGR (复合年增长率)

90%

电子邮件垃圾的年增长速率

~350%

同构 SAN 所占百分比估计值(同一操作系统)

75% (仅对 Unix 和 Win2K 系统)

2002 年电子邮件信息和附件的平均大小

50kb

2007 年电子邮件的平均大小

650kb

2001 年每天发送的电子邮件数

12,000,000

2005 年每天发送的电子邮件数(估计值)

35,000,000

垃圾邮件所占比例(也叫做带宽过热)

62%

所有 Internet 信息流的年增长率

80%

单用户系统中存储的数字格式数据所占比例

56%

移动媒介上存储的数字格式数据所占比例(磁带或光存储)

>80%

0
相关文章