存储 频道

帮你Hold住"大数据" 文件系统选型指南

  【IT168 专稿】数据量的飞速增长目前已经成为各行各业老生常谈的问题,这一趋势主要是由企业业务驱动所造成,例如需要保留数据、越来越多的信息被创建成数字形式以及不断增长的Web 2.0应用等等都带来了对存储能力的大量需求。典型的实例包括金融服务、生物工程技术、媒体和娱乐等行业。

  新的数据源不断涌现,非结构化数据呈指数倍数增长,同时也为企业的IT管理人员带来了诸多存储方面的难题。作为存储操作系统的重要组成部分,文件系统也面临着变革与创新。面对市场上种类繁多的文件系统产品,企业IT管理员们究竟应该从何下手?本文将围绕文件系统这一话题展开,希望能对正在选型中的企业有所帮助。

文件系统是什么?

  一、文件系统是什么?

  "全球网络存储工业协会(Storage Networking Industry Association,SNIA)"是这样定义文件系统的:它是"在一个或多个物理或虚拟磁盘的地址空间上使用结构方法的软件组件。”文件系统是企业存储操作系统的组成部分之一,负责管理和存储大量的文件信息,对文件的存储空间进行分配和管理,并对存人其中的文件进行保护和检索,同时为用户提供包括文件创建、删除、命名、读写、访问控制等一系列功能。此外,文件系统还可以根据存取权限及访问操作类型来指定用户对文件的存取。

  一般而言,文件系统分为独立式和分布式两种类型。独立文件系统既可以与操作平台(例如Windows上的NTFS)直接连接,也可以直接连接到为特定目标建立的文件系统(例如网络应用设备)。分布式文件系统则既是联合的(使用一个管理节点跟踪所有元数据,并且一组结点提供数据),又是集群式的文件系统(元数据和I/O处理在集群中平均地分布在所有节点上)。部署合适的文件系统可以使IT机构更有能力管理他们的非结构化数据资产。

  独立式文件系统

  独立文件系统提供文件共享服务,通常与存储设备捆绑在一起,通过NFS 或 CIFS协议进行存取。最典型的独立的文件系统是Windows上的NTFS。NTFS和Windows服务器会在同时买到(它们会安装在一起)。Windows服务器通常用于文件共享和文件归档与打印服务。当需要更多的容量时,需要购买新的运行NTFS的服务器并且为用户分配空间。NetApp的核心文件系统WAFL便是独立式文件系统的另一个实例。NetApp公司将其文件系统与存储设备安装在一起提供,通过NFS 或CIFS执行存取,通常将其称之为NAS设备。

  在很多机构内,基于文件的数据增长给存储经理们带来了管理问题(例如,可能有太多的服务器用作文件服务器,致使经理们要花费大量的时间处理数据迁移、容量配置和性能负载平衡等事务)。

  分布式文件系统

  分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。例如,用户可以“发表”一个允许其他客户机访问的目录,一旦被访问,这个目录对客户机来说就像使用本地驱动器一样。

  分布式文件系统除了具有本地文件系统的所有功能外,还必须管理整个系统中所有计算机上的文件资源,从而把整个分布式文件资源以统一的视图呈现给用户。

  此外,分布式文件系统还需要隐藏内部的实现细节,对用户和应用程序屏蔽各个计算机节点底层文件系统之间的差异,以提供给用户统一的访问接口和方便的资源管理手段 。

  集群文件系统

  还有一些层面的市场需求是文件不只要支持员工间共享数据而且还要支持关键的业务智能,这些业务智能可以使该机构不同于他的竞争对手,或者可以为管理审核人员或投资商提供必要的信息。这类基于文件的数据可以长期保存并且必须具备高可用性和完整性。在这样的环境下,要具有可伸缩性、可用性和易于使用等功能同时还要保持较低的成本是很困难的。

  Federated FS可以通过文件虚拟化利用现有投资(文件服务器或NAS设备),从而能够战胜这个困难。文件虚拟化软件可以集中管理现有文件资源、简化迁移、提高可伸缩性、并且简化环境的整体管理。但是,随着性能需求的不断提高,联合文件系统的结构可能成为瓶颈。

  传统上采用文件系统的两个主要环境包括:企业高性能计算和文件共享。高性能计算(HPC)环境使用专门的硬件和软件,最近已经迁移至带有分布式文件系统的基于Linux的平台,从而支持并行处理。另外还有一种单独形式的文件系统,如Windows或基于目标的文件系统设备---通常指NAS,用以支持文件共享和文件保存与打印服务。

8
相关文章