为什么Hadoop一定是分布式计算的未来？-存储专区

为什么Hadoop一定是分布式计算的未来？

作者：leftnoteasy 编辑：曾智强 2011-08-31 00:01 来源：博客园

　　为什么世界上只有一个Hadoop?

　　我的前公司是国内某一个著名互联网公司的子公司，专注做云计算，我也在这个公司最兴盛的时候进入，当时宣传的口号是“做最好的云计算”，就是希望自己开发一套存储计算系统(就是类似于前面提到过的dfs与map-reduce)，并且克服一些Hadoop的缺点(比如说用c++去实现，克服Java的一些性能问题)。后来结局可能大家也猜到了，投入了很多钱，招了不少牛人，确实也做出了还算不错的云计算(至少在国内是数一数二的)。但是最终不管从稳定性还是效率上还是scalable来说，都远远被Hadoop甩在了后面。虽然我前公司这个云计算项目是否会成功，这里没办法预测，但是前途终究还是比较黯淡的。

　　最近一年还听说国内不少的互联网巨头都成立了云计算部门，做“自己的”云计算，有些小得像创业时期一样的公司，都宁愿自己写一套map-reduce框架，不愿意直接使用Hadoop。可能这个跟国人的想法，武功秘笈一定要自己藏着，不让别人学，传男不传女。对别人白给你的东西，非常不放心，觉得大家都能学到的东西，肯定竞争力是不够的。

　　除开心态问题不谈，但从技术实力上来说，一般国内公司的核心开发团队的能力和当年的Yahoo!比，还是有非常大的差距的，至少像是Doug兄这样的大牛是很罕见的，从开发者的实力来说，就差了不止一个档次。

　　其次从积累来说，Hadoop从初创到现在也经过了至少7年的积累的，碰到过很多刁钻客户的问题都慢慢克服了(比如Facebook的超大数据存储)，带给用户的经验教训是很充足的，比如说性能调优这一块，就有非常多的文章去介绍。而自己开发一个，什么都需要从头再来。

　　最后也是最重要的是，Hadoop形成了一个强大稳定的生态系统，里面有生产者(共享改进的代码、fix bug)，也有消费者(使用项目并且反馈经验)，Hadoop的用户也可以获得较大的经济利益(不花钱买软件，还可以增加效率)。对于一个开源社区来说，构建出一个完整的生态系统是非常非常的困难，一旦构造出来了，项目就会很稳定的往前去进步。

第1页：Hadoop为何物?第2页：为什么世界上只有一个Hadoop?第3页：Hadoop的优势分析第4页：Hadoop的劣势第5页：Hadoop的未来怎么样?

关注我们