对象存储随非结构化数据增长日渐流行-存储专区

对象存储随非结构化数据增长日渐流行

作者：转载自网络编辑：李隽 2010-03-25 09:53 来源：TT存�

　　【IT168 技术】在Web2.0、云和数字内容爆发的时代，企业数据经理们在重新评估他们存储非机构化数据的同时，厂家推出他们的新的基于对象的存储系统来提供更加简单的管理和具有更佳扩展性的元数据格式。

　　在未来的3年内，预期非结构化数据的增长将超过结构化数据。据去年秋天发布的《IDC企业磁盘存储消费模型》报告，尽管交易类数据预期年增长率(compound annual growth rate ─，CAGR)为21.8%，但是被远远不及61.7%的非结构化数据的年增长率远远超过。

　　“随着类似数字视频和移动网络之类事物的增长(5年内所有的手机都会变成“智能手机”)，将会产生极大量的数据将会产生”Data Mobility Group的分析师Robin Harris说，“我们所有的数据专家都同意这点，而有些人开始展望这种增长对存储架构有何种需求。”

　　考虑API，而不是文件

　　传统的文件系统架构把数据组织为由目录、文件夹、子文件夹和文件组成的“树状结构”，文件是和应用相联系的数据块的逻辑表示，是处理数据的最常见方式。类似NFS和CIFS的网络文件系统接口是被广泛接受的、标准化的将数据从存储设备传送到应用的方式。

　　传统的文件系统在单个文件夹存储文件的个数具有理论限制，而且只能处理简单的元数据(Meta Data)，在处理大量的类似文件的时候将会出现问题。

　　“随着数据的增长，文件系统越来越不靠谱。”Harris说，“从架构上来讲，如果每个文件都有唯一的128bit标识，并使用类似Internet的系统来定位文件将会更合理;一个URL指向一个地址，而且那个地址会有文件，而基于对象的存储接口基本上就用相同的方式工作。”

　　通过用对象标识取代文件名，可以随对象存储比传统文件系统中具有拥有的“创建”、“修改”、“保存时间”项目提供更多的信息。因而，可以对对象施以详细的策略来进行更高效和自动化的管理。

　　没有了NFS或CIFS来给应用提供数据，基于对象的存储系统需要替换掉位于磁盘上的原始数据块和应用可以理解的文件之间的这个抽象层。现在的基于对象的系统使用类似REST(Representational State Transfer)和SOAP(Simple Object Access Protocol )的标准的API或者私有的API来告诉应用如何存储和读取对象标识。

　　新的基于对象的存储产品瞄准云

　　对Amazon，、Flickr，、Google或YouTube这样的知识产权和竞争力来自提供基于Web的应用的公司来说，编写他们自己的接口并不是一个大问题。但是对有几十甚至上百个应用的企业来说，修补代码来使每个应用可以和基于对象的存储一起工作很可能会成为繁重且不经济的任务。然而，有些存储厂家可以提供预制而又灵活的架构来完成这样的任务。Caringo公司是第一家将CAS(content-addressed storage内容寻址存储)应用于近线存储而不是归档的厂家，类似EMC的Centera(其设计者后来创建了Caringo)的CAS系统一般都是用于归档。在2008年5月，Caringo声称它的CAStor产品可以用于替代传统的集群存储产品中的文件系统或者全局命名空间。CAStor通过可以集群(尽管网关内没有全局命名空间)的文件系统网关支持CIFS或NFS，以及原始的HTTP访问。据公司介绍，CAStor可以安装在任何的具有直连存储(DAS)的x86硬件上。

　　EMC在2008年11月通过它的称为云优化存储(cloud-optimized storage ─ ，COS)的Atmos系统进入这个市场。Atmos使用基于对象的元数据来允许用户设置策略来决定在何处存储数据，对其应用何种服务，以及该生成多少副本并在何处存储它们。REST和SOAP Web服务及复制、版本管理、压缩、重复数据删除和磁盘停转功能都是内置的。用户无需创建文件系统或者分配LUN;在设置过程中，他们只需要回答几个问题来设置策略。

　　DataDirect网络公司在2009年6月发布了Web Object Scaler(WOS)产品，预计在2009年年底之前能够上市。EMC说Atmos能够扩展到上PB以及数十亿文件，但是DataDirect说WOS可以处理超过2000亿文件和6PB，而且还声称具有较Atmos更佳的性能，因为它的系统中对象的元数据全部存储在服务器节点的内存之中。而Atmos的元数据则经过分区后存储在分散于系统中多个磁盘的很多数据库里。

　　Cleversafe公司于2009年9月完成对其dsNet Object Store的测试并将其正式推出。Cleversafe的SliceStor存储节点可以将单个文件打散成最多11份来冗余，为每份数据添加哈希值以供数据重建。Cleversafe提供了内置的加密，而且之前还随产品提供块级的iSCSI或WebDAV接口。现在它提供基于Java软件开发包(JDK)或使用REST的基于对象的访问API。

　　最近NetApp Inc 的 cloud czar Val Bercovici发布一条blog声称，“在不远的将来”，这个最擅长NAS的厂家也会提供一个原生的对象存储接口。

　　对象之争

　　Caringo的CTO和创始人之一，Paul Carpentier作为FilePool的创始人发明了CAS，FilePool在2001年出售给EMC之后变成了EMC的Centera。Carpentier可能是最直言不讳的用基于对象的系统来整个替换掉文件系统的支持者。“这个讨论十分热烈，”Carpentier说“个人来说，我认为我们已经把分层结构延续得太久了。”Carpentier说文件系统设计的初衷是允许少数用户同时访问共享的少量对象。但是现在，他说，存在着“广泛分布的用例(对非结构化的数据)和这些系统运行机制之间的不匹配──90%到95%的参考信息不需要带有并发锁机制的文件系统。”Carpentier还说在到达PB级别的时候，管理文件系统就显得过于细致而不切实际了。“一些产品产生虚拟层级来表示全局命名空间，但是下面可能存在20个需要单独管理的文件系统，迟早Web 2.0业务模型会变得不可能实现”他说。还有，在大尺度上“备份已经不在有效了──你需要实时复制(Replication)。”

　　对象接口可以用文件系统无法达成的方式来对存储在下面层级磁盘硬件上的数据进行重复数据删除，Cleversafe 的 CEO Chris Gladwin说。“对于对象来说，没有大小限制，或者驱动器大小的概念──只有一个命名空间，它理论上可以包含地球上所有的驱动器。”

　　一个EMC和NetApp用户说他同意这种观点。“我感到我们现在的文件系统不太好──在大型机时代，你可以给文件附带属性以便管理他们，”一个由于公司规定而要求不公开其公司名称的资深存储专业人士Tom Becchetti说，“在文件系统中，如果你需要用与其它文件不同的方式来管理一些文件，现在你要在不同的服务器中来实现。”

　　这和服务器虚拟化中正在进行的整合背道而驰，而Becchetti说基于对象的存储“可能成为虚拟(服务器)世界成长的关键，这里一个对象不是文件而是一个VMDK(虚拟机磁盘文件)。这意味着我可以在比当前的文件系统中更多的物理服务器之间共享一个VMDK，而且通过基于策略的管理来在更大的尺度上对其进行保护，例如我可以说VMDK名字带有P的应该用这种方式来保护，而任何名字中带有D的则不是。”然而，就算在一些要求最为严格的环境中，用户也会说文件系统可以完成任务。Eugene Hacopians是California Institute of Technology (Caltech)的高级系统工程师，那里是NASA的喷气推进实验室的学术老家，在最近的一次Wikibon.org电话会议上，他说他的存储环境中有2PB的数据，包括数十亿个5KB到25KB大小的文件，仍然主要运行在来自Nexsan技术等公司的传统存储系统上。但是这更多的是由于时机、项目生命周期以及预算的原因而不是出于技术上的偏向。“我们留意过(基于对象的存储)而且也正在为较新的项目考虑它”Hacopians说“当你正在实施一个项目的过程中的时候，想要转为一个新技术并被迫破费会很困难。”

　　不同的产品和不同的用例

　　另一个视角是文件和对象不一定要处于对立的状态。例如，NetApp和EMC都表现出对这一观点的赞同。

　　“如果说传统的文件系统有局限的话，我们现在还没有遇到呢，”EMC的中档产品市场主任Peter Thayer说。“更多的时候是Web 2.0的应用为中心的用例需要更多的元数据，而不是传统的文件系统空间耗尽。”

　　E　　MC的NAS开发CTO，John Hayden补充道如果用户需要对相同文件的共享的读写访问，“从性能上来说，今天的传统文件系统具有更强的能力。”

　　NetApp的Bercovici也表达了相同的观点。NetApp持续推出基于文件系统的产品，最近的是它的Ontap 8操作系统，支持向外扩展(scale-out)。不过，“如果你需要支持上百万，上亿或者数十亿的类似对象，例如医疗图像，存储接口就变成了开销，”他说。“你不想创建LUN，文件夹和权限;你只想要一个可以扩展的目录。”

　　有些用户还发现结合使用不同产品来应对同一环境中的不同的需求最为有效。在Johns Hopkins University Bayview Research Campus Center for Inherited Disease Research，基因研究过程的数据处理是通过连接到一个72TB的Isilon系统公司的集群NAS系统的客户端进行的，但是当数据经过了在研究员之间活跃地共享的阶段而变成要保存的参考信息的时候，它就被转移到Caringo的CAStor基于对象的系统上。

　　“Isilon提供了一个很大的共享的文件系统，来为那些驱动我们实验室设备的计算机提供对桌面数据分析的支持，”中心的bioinformatics主任Lee Watkins Jr.说。具有文件锁和跨越Windows及Linux进行权限管理的能力十分重要，尽管Watkins说这些管理常常令人头疼。“我们有些很大的文件需要从Linux，Mac OS X和Windows桌面系统访问，有些需要读取，有些要写入，而我们需要决定如何在不同的(Isilon)节点之间均横负载，决定每一个节点要加载哪一个文件系统。”一旦数据进入归档期，Watkins说更重要的就是，要能在研究需要数据和元数据的时候快速地对其进行访问。“我们产生海量的数据──每天可以达到1-3TB。”对Johns Hopkins来说，编写一个程序来通过API访问Caringo存储“是非常简单的，”据Watkins。“我们能够在后端把文件来回移动，而不用担心寻址和它的实际位置，而且用何种文件系统请求文件都没关系。”

关注我们