为什么Hadoop一定是分布式计算的未来？-存储专区

为什么Hadoop一定是分布式计算的未来？

作者：leftnoteasy 编辑：曾智强 2011-08-31 00:01 来源：博客园

　　Hadoop的优势

　　之前分析了一些“虚”的东西，比如生态系统什么的，这里说说一些实际的东西。

　　Benchmark:

　　Hadoop现在保持了很多漂亮的记录：

　　存储：现在世界上最大的Hadoop集群目前在Facebook，可以存储30PB的数据

　　计算：Hadoop是目前Terasort记录的保持者(参见：http://sortbenchmark.org/)，Terasort是给出1TB的随机数据，看谁能够在最短的时间内完成排序，Hadoop使用了1400多个节点，在2分钟内完成1T的数据排序。

　　这里顺便说一下，之前给出网站里面有很多的benchmark，可以看到Hadoop的集群是最大的，使用的机器最多的，像是TritonSort这样的集群，使用了区区50多个节点，最终的结果并不比Hadoop差太多，但是这里得注意一下。TritonSort是专门用来做排序的，里面加入了相当多的优化，但是Hadoop是一个通用的集群，并没有为了一种任务进行如此多的优化。从用户的角度上来说，愿意花钱去买一个只会排序的电脑是意义不那么大的。

Hadoop的优势分析

　　注：左右两边属于两种不同的terasort，hadoop是其中一种的记录保持者

　　能做什么?

　　前面说的基本的存储和计算Hadoop是一定能胜任的，下面谈谈一些“高级”的功能。

　　常见的数据库操作，比如orderby、select这样的操作都可以的，Hive就是支持这样的Sql模型，能够将Sql语句最终转化到Map-Reduce程序中去。其性能和可用性已经得到了证明，Facebook就用它做了不少的数据分析的工作

　　常见的机器学习、矩阵分析算法，目前Mahout作为一个发展迅速的项目，在逐渐填补Hadoop在机器学习领域的空白，现在常见的分类、聚类、推荐、主成分分析算法(比如SVD)都已经有相应的Map-Reduce实现了。虽然目前从用户群和效率上来说是不够的，但是从它的发展来说应该会很快的达到工业界的标准。

第1页：Hadoop为何物?第2页：为什么世界上只有一个Hadoop?第3页：Hadoop的优势分析第4页：Hadoop的劣势第5页：Hadoop的未来怎么样?

关注我们