存储 频道

EMC Isilon横向扩展NAS原生支持Hadoop

        【IT168 应用】EMC在大数据投下大赌注:将Hadoop文件系统集成到Isilon横向扩展NAS中,并使其Greenplum分析产品能够使用Hadoop数据。

  Hadoop是一种对象式的分布可扩展开源文件系统(HDFS),部署在由数据节点组成的集群和一个NameNode之间,在更大集群中的另一个NameNode对主NameNode数据结构进行快照,可在主NameNode发生故障的情况下用作重建资源。NameNode中包含数据节点中文件的元数据。

  HDFS现在在大学中非常普及,尤其是生命科学,以及一些Web 2.0应用。EMC的理念是,NameNode是一个单点故障,没有针对它的高可用性,在企业数据中心范围之外。EMC坦言,如果HDFS能够用于企业中并由普通存储管理员进行管理的话,那么将有很大的机会为企业数据中心的大数据分析提供Hadoop系统。这也就是为Greenplum HD分析前端提供一个集成的Isilon-HDFS存储后端的原因所在。

  EMC通过发布Isilon OneFS v6.5,提供了一站式的Apache Hadoop商店,这也是EMC认为目前Hadoop领域的一个空白,即:

  · 一个可共享的、而不是专用的存储基础设施;

  · 针对NameNode的高可用性;

  · 通过快照(SnapshotIQ)、复制(SyncIQ)和备份(NDMP)提供保护;

  · 能够分别扩展计算能力和容量;

  · 通过NDS、CIFS、FTP和HTTP自动输入输出数据

  · 除了基础HDFS数据镜像提高3倍之外,存储效率达到80%的水平

  Isilon产品管理总监Nick Kirsch表示,NameNode部署:“是少有的。NameNode现在是我们分布式元数据的一部分。每个节点都是一个NameNode。”

  Greenplum已经通过Apache Hadoop的认证,提供平台管理和控制,以及与Greenplum数据库的平行分析访问。EMC还通过了设计和培训服务,全球24*7的支持以及开发路线图。

  EMC将自己的做法与Oracle和NetApp进行了对比。EMC宣称这两家厂商都无法提供与自己存储阵列原生集成的Hadoop;针对NameNode的完整高可用性;相同级别的存储效率;多协议访问;以及企业级保护特性。

  目前普渡大学(Purdue University)已经在自己的统计系采用Isilon/Hadoop组合并有不错的反馈。该大学表示,现在他们不需要一个单独的Hadoop数据孤岛,用户可以使用“一个单一的共享的存储资源来进行数据计算和分析”。现在,他们的统计人员可以做更多的统计工作,而无需在Hadoop基础设施管理上花费太多精力。

  EMC表示,这些新增的特性将让Hadoop更多地被企业采用,而且企业Hadoop用户将更多地期待数据科学家从统计角度分析他们的大数据集,以获得有价值的、能从中收益的信息。毕竟,能够从分析数据中获得收益,就是大数据所能带来的回报。

  EMC及其渠道合作伙伴不久即将供货EMC Greenplum HD on Isilon。

0
相关文章