存储 频道

Jeff Markham:100%开源是Hadoop的核心

  【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


点击进入2013 Hadoop中国技术峰会官网

  Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在本次大会即将召开之际,IT168记者有幸采访到了本次大会的特邀演讲嘉宾——Hortonworks亚太区技术总监Jeff Markham先生。在加入Hortonworks之前,Markham先生曾帮助VMware、红帽、IBM等公司利用分布式数据建立分布式应用。他在Hadoop技术和数据分析方面拥有多年的经验,同时也是《Apache Hadoop YARN: Moving Beyond MapReduce and Batch Processing with Apache Hadoop 2》的作者之一。

  YARN:下一代Hadoop平台

  自2006年诞生以来,Hadoop如今已经走过了7年的历程。而谈到Hadoop,我们就不得不提到雅虎、Hortonworks和Cloudera这三家公司与Hadoop的渊源。Hadoop起源于2002年的Apache Nutch项目,是Apache Lucene的子项目之一。2006年逐渐成为一套完整而独立的软件,起名为Hadoop。2008年初,Hadoop成为Apache优异项目,应用到除Yahoo!以外的很多互联网公司。2010年起,雅虎的Hadoop团队分离出两家Hadoop技术咨询的创业公司,分别为Hortonworks和Cloudera。其中,Hortonworks拥有58名Hadoop PMC,占据社区35%份额。据Jeff介绍,按照代码行统计,Hortonworks和雅虎共贡献了Hadoop主干项目80%以上的源码。

YARN:下一代Hadoop平台
▲Hortonworks亚太区技术总监Jeff Markham先生

  作为一家脱胎于雅虎,专注Hadoop的公司,Hortonworks可以说是雅虎对Hadoop生态圈贡献的延续。Jeff在采访中表示,Hortonworks公司不仅拥有大量的Hadoop专家,同时也是Hadoop 2.0、Apache Hadoop YARN的主要贡献者,而YARN更是被业界视为下一代的Hadoop平台。谈到YARN的诞生,Jeff表示,旧版MapReduce的JobTracker/TaskTracker机制需要大规模的调整来修复它在可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷。在过去的几年中,Hadoop开发团队做了一些bug的修复,但是最近这些修复的成本越来越高,这表明对原框架做出改变的难度越来越大。为从根本上解决旧MapReduce框架的性能瓶颈,从0.23版本开始,MapReduce框架经历了一次大规模更新,并进行了完全重构,新版本的MapReduce2.0则被命名为YARN或MRv2。

YARN:下一代Hadoop平台

  相对于Hadoop 1.0,Hadoop2.0有了质的变化,从架构的稳定性还是合理性方面都有了明显提升,使Hadoop的重要性超过了单一的批处理平台,生态系统也更加繁荣、紧密。而在Jeff看来,YARN在Hadoop 2.0中的角色是重中之重。他表示,Hortonworks在着手构建Hadoop2.0时,希望从根本上重新设计Hadoop的架构,从而达到可以在Hadoop上运行多个应用程序并处理相关数据集的目的。这样一来,多种类型的应用程序都可以高效、可控地运行在同一个集群上。这是以Hadoop 2.0为基础的Apache YARN之所以能够诞生的真正原因。通过YARN管理集群的资源请求,Hadoop从一个单一应用程序系统升级成为一个多应用程序的操作系统。

  从本质上来说,YARN是Hadoop的操作系统,突破了MapReduce框架的性能瓶颈。同时它也是一个真正的Hadoop资源管理器,允许多个应用程序同时、高效地运行在一个的集群上。有了YARN,Hadoop将是一个真正的多应用程序平台,可服务于整个企业。Jeff还透露,YARN已经被用于Hortonworks的数据平台,而Hadoop和YARN的组合是企业大数据平台致胜的关键。

5
相关文章