EMC推进Hadoop在SQL数据库Hawq中的应用-存储专区

EMC推进Hadoop在SQL数据库Hawq中的应用

作者：译者：wangfei 编辑：曾智强 2013-02-27 08:57 来源：存储在线

　　EMC的Pivotal HD系列产品的产品经理Josh Klahr解释说，Hadoop向HDFS的Hawq扩展将它变成了一个数据库。他说：“Hawq实际上就是一个大规模并行处理工程或MPP，数据库运行在Hadoop中，位于HDFS的顶部。作为一个单一的系统，它将一整套聚合基础设施嵌入系统，那套聚合基础设施可以运行和提供Hadoop和HDFS必须提供的所有功能以及你能从MPP数据库中获得的规模、性能和可查询功能。”

　　如果你不相信Klahr，就给他发邮件吧。我个人认为，这里要么是Hawq存在一些限制，要么是关系数据库存在一些限制。

　　Klahr进一步解释说：“它其实就是一种SQL语言兼容性，我没有轻易去使用那些字眼。它与SQL并不相似。你可以利用Hawq编写任何SQL查询命令，然后将它放到Hadoop顶部运行。SQL-99、SQL-92、SQL-2011、SQL-2003，我相信还有其他年份的SQL存在。”

　　运行在Hadoop和HDFS顶部的SQL引擎可以由数百个服务器结点扩展到数千个服务器结点的规模，它源自于Greenplum数据库的优化产品，因此，为什么我们不会看到它们被开源呢?

　　它内嵌了现成的安全和报告功能，使用标准的Hadoop格式。你可以在一个文本文件、一个序列文件或是Avro输出中制定它，你可以阅读HBase 柱形图表(如果你已经对HBase进行过投资的话)并且以一种天生支持Hawq的优化形式(这样可以提高性能)来写入数据库信息。

　　据EMC称，与面向批处理的查询相比，HDFS和Hawq的结合可以将性能提高10倍到600倍。那会将间歇式系统转变成互动式系统。这是上个世纪六七十年代的主机的优势，那也是将Hadoop变成其工具箱的一部分所需完成的任务。

　　Pivotal HD产品包包括Hadoop 2.0以及它的MapReduce并行执行编程环境和HDFS。你可以利用Hive数据仓储、HBase关键价值商店、Pig开发语言、Yarn资源管理、Mahout并联分析工具和Zookeeper进程管理工具。

　　Pivotal Hadoopery还包括被EMC称为Hardware Virtual Extensions的组件，它可以让Hadoop群集知道自己是建立在虚拟机还是物理服务器的基础上，并且很可能会是VMware的Project Serengeti项目商业化之后的成果。

　　这款产品还包括一个安装和配置管理工具、一个名为指挥中心的任务追踪机制、一个来自于Greenplum数据库的并行数据加载工具。Spring Batch功能是从Cloud Foundry项目中提取出来并针对Hadoop优化后的Java框架。

　　Pivotal HD将在今年第一季度开始销售，El Reg证实核心企业版和Hawq Advanced Database Services插件都将在第一季度末之前上市销售。

　　这套软件运行在EMC的Data Computing Appliances平台之上，后者是EMC在2010年10月收购了Greenplum之后发布的。它还将运行在2011年9月宣布推出的switch-hitting DCA上，后者可以在工作负载发生变化时启动Greenplum数据库或Hadoop结点，但是不会象Pivotal HD那样将两种工作负载合并在一起。

　　如果你想在自己的设备上运行它，你也可以购买软件版的Pivotal HD。但EMC没有透露该产品的定价信息。

第1页：EMC推进Hadoop在SQL数据库Hawq中的应用第2页：EMC推进Hadoop在SQL数据库Hawq中的应用

关注我们