存储 频道

信息生命周期管理

  我们正在目睹数据生命周期中的一个新效应:数据总量会随着数据时效性下降而增加。和过去不同,现在固定内容和归档存储已经成为存储工业增长最快的领域。在20世纪90年代末.com盛行的时代,存储需求年增长率超过100%。今天存储工业正以大约每年50%到70%的增长速度生成新数据。另外,由于前几年人们习惯于过度采购,造成目前某些存储需求必须利用未被使用的现有存储容量。即使不考虑增长速度,数字格式数据总量的持续增长也已经令存储管理的形势日益严峻,所带来的后果就是:存储的数据越来越多,存储期限也越来越长。这类数据中的大部分都以数字格式存储,并且缺乏有效的存储管理服务。

  数据常常被“永久地保存”,所以那些因失去价值因而应该被删除的数字格式数据所占的比例迅速下降。大多数情况下人们认为这种方法比管理数据整个生命周期更为容易。数据存在或生成3天后,它被重新使用的概率通常会下降50%。数据生成30天后,重用的概率一般要下降到只有几个百分点。电子邮件和医疗成像方面的应用很好地说明了这一数据老化过程中发生的变化。除了所购买的磁盘和磁带之间每单位存储价格的实际差异之外,从环境因素(电力消耗)和安全问题考虑,将活跃程度极其低下的文档和不活跃数据长期保存在磁盘上也是不经济的做法。本文最后的“存储消耗规律(经验、观察或评估值)”表进一步总结了众多的存储消耗和利用模式,这些模式将为数据生命周期管理施加更大的压力。

  数据保存需求的改变

  当近线存储(Nearline)概念在20世纪90年代逐渐被广泛接受之时,人们普遍相信归档是数据在被删除或失效之前的最后状态。此后,数据保留1至2年又被视为保持数字格式数据可用性的合理时间期限。15年后的今天,游戏和规则都不同往日,美国政府的新法规“萨班斯-奥克斯利法案(Sarbanes-Oxley Act)”以及HIPAA(健康保险便携性和责任法规)中关于数据传输与保存的要求已经改变了我们看待数据生命周期的方式。几个主要的医疗保健提供商都面临着未来几年将生成和存储超过500TB的数据,需花费的管理时间相当于一个人的一生再加上7年的光阴,而这个时间期限则可能超过100年。

  SEC(美国证券交易委员会)17a-4(t)条款规定了数字格式数据存储时的归档需求,其中包括:使用什么类型的存储格式,数据应该保留多长时间,以及必须存储在何处,存储多长的数据拷贝等等。数据生命周期的“晚年”并不是象从前那样会萎缩,而是膨胀,并且现在的数据保留政策均以数据的价值和法律法规为基础,而不仅仅是数据被引用的概率。对终生数据管理来说,“重要的不是数据是否会被使用,而是数据是否在那里。”存储领域中的这种变化呼吁我们推出基于数据价值的新管理政策,并制订一个标准而通用的数据迁移需求分级方案,要知道,所有的数据并不是生来平等的。

  生命周期管理和政策

  如何能够真正实施信息的生命周期战略?对数据的一生进行管理是否实际可行?如果不大幅提升现在的数据管理水平这一点就不可能实现。经过进一步的观测,我们发现数据的增长速度越来越快,甚至超过了我们的管理能力。随着存储网络和SAN(存储区域网络)部署的继续发展,不同存储等级之间的非常好的存储地点和最优化迁移将自动浮出水面而无须人类的参与。由于这些功能逐渐脱离应用服务器,它们将在存储系统内部作为“频带内(in-band)”或“频带外(out-of-band)”功能被执行,并且很可能通过刀片服务器或设备实现。业界将需要并发展高级的策略驱动型SRM(存储资源管理)软件,以便衡量引用模式并触发管理策略,并且结合HSM或类似技术,最终将数据在其生命周期内迁移至非常好的存储地点。在未来,SRM将可能成为测量数据价值的非常好的存储管理工具。


图2

0
相关文章