存储 频道

如何在分层式存储过程中进行数据分类

  【IT168 技术】分层式存储的概念比较简单:是将数据分类,按照重要性、访问频率和保留要求进行分类,然后再相应的处理各个层次的数据。这听起来似乎很简单,但执行起来却并非如此。

  全球网络存储工业协会(以下简称为SNIA)表示,如何进行数据分类是实施分层式存储过程的最大挑战。

  在SNIA 的官方网站首页上有这样的一句话:“我们从很多客户那了解到,如何就信息和数据分类需求达成一致是他们在开始部署基于ILM(Information Lifecycle Management,信息生命周期管理)的分层式存储时遇到的最大挑战。这是能否成功部署ILM的关键点”。

  ILM在本质上是以目标为导向的分层式存储。当分层式存储在处理数据分类时,ILM也站在用户的角度处理着相同的问题。换句话说,就是数据为什么要进行这样或那样的分类和存储。

  成功的分层式存储部署需要考虑存储设备价格、数据平均寿命、数据使用频率和数据读写速度等因素。

  存储只有三个基本层面——存档、备份和正在使用层。但是在分层式的存储系统中,一个业务最终很可能会被分成很多类。由于这些类是由特定业务组成的,甚至有数百种不同规则的分类方式,而它们之间只有非常微小的差别。

  例如,一个变量是一条记录在每层上保留的时间以及这条记录是否应该被转移或者被销毁。

  但是为分层式存储确定类别不只是存储管理的问题,它也是用户的问题。用户需要帮助进行数据分类。存储经理们需要最终确定种类和选择技术来帮助用户。

  用户的数据输入是必要的

  你将需要输入各个用户小组产生的或者处理的数据。这将包括数据的存储时间、数据可获取的时间、数据获取方式、数据层间移动的时间和销毁时间等。

  设立数据分类是相当必要的,因为数据经常会被很多个部门使用。例如,一些数据对一个部门来说,三个月后就会变的毫无价值;但是对其他部门而言,这些数据的利用率却长达好几年。

  如果可能的话,分类应该自动执行。也就是说,系统应该可以自行决定将每个文件归档到什么地方,而不需要再询问它的使用者。这些通常可以通过文件的类型(表格或者文字处理文件)、创建时间、文件的创建者和存储的目录来实现分类。系统能够轻松的实现这些数据的分类。

  下一步是将这些分类条理化而且需要时还可以将它们合并起来。这一般跟使用者分类的特点结合在一起。例如,一个用户仅在三个月内需要这个文档,但是如果把它保存六个月再删除这个分类,这是没有任何问题的并且是值得做的。

  让我们来分析一下技术方面的问题。在你的分层式的存储系统中,现有硬件和软件的使用率是多少?你计划下一步采用哪些新技术?你是打算分散式安装还是大规模安装呢?

  分层式存储让容量规划变得更加复杂

  分层式存储带来的一个后果是让容量规划变得更为复杂。不仅仅是需要增加硬盘的数量,还需要决定硬盘的种类,(例如,快速SCSI,中速SCSI,SATA,RAID 10,RAID 5 等等)。 不要妄想用户的存储设备类别能够自动同步增长。在分层式存储中,有些类别增长的很快,有些一直没有发生什么变化,有些却在减少。

  例如,归档的需求通常会减少,这是因为有些数据是一次性永久的被重新划分到了其它类别中,这些类别在经过短暂的存储之后将会被删除。

  一旦数据被分类、类别规则确定、技术确定完成之后,利用存储管理软件来归档数据就是一个非常简单的过程。在某些情况下,还可以使用数据归档程序。

  在分层式存储中的,如果数据量较为庞大,最好通过特定的数据归档程序来处理。这尤其适用于电子邮件程序,因为电子邮件备份时产生了大量的文件(归档而不是简单的查询)和大量的微型数据文件。

  一旦分层式存储系统确立以后,就应当严格遵守其分类。我们可以将记录看作传票——这些是至关重要的,用户可以传送所有需求的记录,并且数据删除也在严格的执行中。

  用户在其私人硬盘上保存着一个原本应当被删除的副本,这可能会严重妨碍法庭案件的审理过程。用户需要制定一个公司制度来规定数据的存储位置并且需要提供雇员的教育背景。

  本文是对在分层式存储过程中如何进行数据分类的分析,希望本文会让大家有些许的收获。

0
相关文章