存储 频道

Jeff Markham:100%开源是Hadoop的核心

  【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


点击进入2013 Hadoop中国技术峰会官网

  Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在本次大会即将召开之际,IT168记者有幸采访到了本次大会的特邀演讲嘉宾——Hortonworks亚太区技术总监Jeff Markham先生。在加入Hortonworks之前,Markham先生曾帮助VMware、红帽、IBM等公司利用分布式数据建立分布式应用。他在Hadoop技术和数据分析方面拥有多年的经验,同时也是《Apache Hadoop YARN: Moving Beyond MapReduce and Batch Processing with Apache Hadoop 2》的作者之一。

  YARN:下一代Hadoop平台

  自2006年诞生以来,Hadoop如今已经走过了7年的历程。而谈到Hadoop,我们就不得不提到雅虎、Hortonworks和Cloudera这三家公司与Hadoop的渊源。Hadoop起源于2002年的Apache Nutch项目,是Apache Lucene的子项目之一。2006年逐渐成为一套完整而独立的软件,起名为Hadoop。2008年初,Hadoop成为Apache优异项目,应用到除Yahoo!以外的很多互联网公司。2010年起,雅虎的Hadoop团队分离出两家Hadoop技术咨询的创业公司,分别为Hortonworks和Cloudera。其中,Hortonworks拥有58名Hadoop PMC,占据社区35%份额。据Jeff介绍,按照代码行统计,Hortonworks和雅虎共贡献了Hadoop主干项目80%以上的源码。

YARN:下一代Hadoop平台
▲Hortonworks亚太区技术总监Jeff Markham先生

  作为一家脱胎于雅虎,专注Hadoop的公司,Hortonworks可以说是雅虎对Hadoop生态圈贡献的延续。Jeff在采访中表示,Hortonworks公司不仅拥有大量的Hadoop专家,同时也是Hadoop 2.0、Apache Hadoop YARN的主要贡献者,而YARN更是被业界视为下一代的Hadoop平台。谈到YARN的诞生,Jeff表示,旧版MapReduce的JobTracker/TaskTracker机制需要大规模的调整来修复它在可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷。在过去的几年中,Hadoop开发团队做了一些bug的修复,但是最近这些修复的成本越来越高,这表明对原框架做出改变的难度越来越大。为从根本上解决旧MapReduce框架的性能瓶颈,从0.23版本开始,MapReduce框架经历了一次大规模更新,并进行了完全重构,新版本的MapReduce2.0则被命名为YARN或MRv2。

YARN:下一代Hadoop平台

  相对于Hadoop 1.0,Hadoop2.0有了质的变化,从架构的稳定性还是合理性方面都有了明显提升,使Hadoop的重要性超过了单一的批处理平台,生态系统也更加繁荣、紧密。而在Jeff看来,YARN在Hadoop 2.0中的角色是重中之重。他表示,Hortonworks在着手构建Hadoop2.0时,希望从根本上重新设计Hadoop的架构,从而达到可以在Hadoop上运行多个应用程序并处理相关数据集的目的。这样一来,多种类型的应用程序都可以高效、可控地运行在同一个集群上。这是以Hadoop 2.0为基础的Apache YARN之所以能够诞生的真正原因。通过YARN管理集群的资源请求,Hadoop从一个单一应用程序系统升级成为一个多应用程序的操作系统。

  从本质上来说,YARN是Hadoop的操作系统,突破了MapReduce框架的性能瓶颈。同时它也是一个真正的Hadoop资源管理器,允许多个应用程序同时、高效地运行在一个的集群上。有了YARN,Hadoop将是一个真正的多应用程序平台,可服务于整个企业。Jeff还透露,YARN已经被用于Hortonworks的数据平台,而Hadoop和YARN的组合是企业大数据平台致胜的关键。

  100%开源是Hortonworks Hadoop的核心

  目前市面上Apache Hadoop的发行版数量繁多,Hortonworks如何能在竞争中脱颖而出? Jeff认为,Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于,Hortonworks的产品均是百分之百开源。据了解,Hortonworks是一家完全支持开源的公司,其所有的代码都会回馈给Apache Hadoop项目。Jeff在采访中大胆预测,到2015年,全球将有一半的数据是通过Apache Hadoop来处理的,Hadoop将会是未来大数据的平台。作为一家致力于创建与推进开源Hadoop的企业,Hortonworks的使命便是为大家提供100%开源的Hadoop平台。只要是Hortonworks的平台,那一定是开源的,而且是对全球来说都是开源的,这样也能使得未来任何一个合作伙伴和供应商都在开源平台上进行合作。此外,Hortonworks对专有代码的依赖也低于Cloudera,因此用户不必担心“厂商锁定”问题。

  除了专注于开源,Hortonworks还对Apache Hadoop进行了大量的投资,致力于使其成为企业级的大数据平台,同时公司鼓励生态系统的开发商能够提供更多的生态系统来支持Hadoop平台。广泛的合作伙伴支持可谓是Hortonworks的另一大成功要素,在这其中最受关注的合作方则非“微软”莫属。作为微软的战略合作伙伴,Hortonworks借助自己在此领域的专长,帮助将Hadoop最大化集成到微软的产品之中,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台。据悉,去年6 月,Hortonworks与微软正式发布了基于Hadoop 的大数据分析平台HDP(Hortonworks Data Platform)。而Windows版Hortonworks 大数据平台HDP也已于今年二月正式发布,这标志着Hortonworks的大数据分析技术能同时应用于Linux 与Windows 两大平台。

  据Jeff介绍,除了微软,Hortonworks还拥有140多个技术合作伙伴,如Teradata和Rackspace等都建立了各自的Hadoop产品线,这些都是基于Hortonworks的数据平台。

  不过对于广大的Hadoop技术爱好者而言,快速地学习并掌握Hadoop这项技术并非易事。对此,Jeff则强烈建议IT极客们使用Hortonworks的Hortonworks Sandbox辅导教程。他表示,对于寻找解决大数据问题方法的软件架构师,以及正在学习新技术的应用开发人员来说,Hortonworks Sandbox是一个很好的初始课程。在Sandbox中,Hortonworks提供了大量的实用在线培训课程,包括如何使用Apache Pig、Apache Hive和最新的HDP发行版来处理数据等等。据了解,Hortonworks Sandbox可在VirtualBox,VMware,Hyper-V三种虚拟环境中运行,更给力的是,该Sandbox教程完全是免费的,点击进入Hortonworks Sandbox页面

  作为本次Hadoop大会的演讲嘉宾之一,Jeff Markham先生对大会充满期待。在他看来,越来越多的企业开始重视数据分析服务,这预示着Hadoop在全球以及亚太市场即将迎来爆发式增长。他希望这次大会能为参会者带来最新的Hadoop技术发展趋势,届时他将为大家带来Hadoop 2.0和YARN的最新消息和Hadoop未来的发展方向与亮点,将Hadoop2.0旋风带至中国,让我们拭目以待!

  据悉,Hadoop中国技术峰会2013是国内基于Hadoop平台的第一次全产业链的大数据行业技术峰会,大会将围绕Hadoop生态系统展开全方位的技术分享、专题讨论与成果展示。大会议题将涉及以下七大方面:Hadoop技术创新、Hadoop基础架构部署与优化、虚拟化与Hadoop、Hadoop在互联网领域的应用、Hadoop在非互联网行业的应用、Hadoop与企业现有IT架构的整合、大数据创业与投资。

  更多精彩尽在2013年11月22~23日的Hadoop中国技术峰会(China Hadoop Summit 2013),北京永泰福朋喜来登酒店。

  现在报名即可享购票优惠。

5
相关文章