存储 频道

EasyHadoop向磊:学好Hadoop从Linux抓起

  【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  星环科技孙元浩:Hadoop应用的三个阶段

▲点击进入2013 Hadoop中国技术峰会官网

  在本次大会即将召开之际,IT168记者有幸采访到了本次大会的特邀演讲嘉宾——EasyHadoop软件作者、前暴风影音开发经理向磊先生,请他分享了自己对Hadoop应用现状、Hadoop 2.0及未来发展的理解。

  除了上帝之外 任何人都必须用数字说话

EasyHadoop向磊:学好Hadoop从Linux抓起

▲EasyHadoop软件作者向磊

  供职暴风影音数据部门期间,向磊曾负责python的map/reduce代码开发,以及数据部门Hadoop和HBase集群的优化和运维工作。此前,他还曾独立完成EasyHadoop和phpHiveAdmin两个开源项目,目的皆在于降低Hadoop在自动化运维和使用方面的门槛,并已部署于一些大型的互联网公司内部。目前,除了一方面与中科普开合作开展Hadoop的培训工作,向磊也在继续进行Hadoop生态系统相关的易用性以及数据挖掘和可视化的开发工作。同时他还致力于将Hadoop与硬件相结合,比如将Hadoop向ARM这种节能架构的硬件上迁移等实践性工作。

  自从互联网诞生伊始,互联网公司在IT技术领域就秉承了“开放、共享、创新”的互联网精神。随着大数据时代的到来,Hadoop已经成为大数据领域最炎手可热的技术。除了百度、阿里巴巴这些大互联网公司之外,越来越多的互联网公司开始尝试和使用Hadoop,拥有1.5亿用户的暴风影音也不例外。

  向磊透露,在使用Hadoop之前,暴风影音曾遇到过很大的瓶颈。众所周知,暴风影音的装机量和使用量均位居全国前列,前一阵更是超越了国内绝大多数的竞争对手,在日活跃上仅次于优酷。作为一个客户端软件,这是一个非常了不起的成绩。机遇与挑战并存,在暴风亮眼成绩的背后是呈爆炸性增长的海量数据,而这也是暴风影音的瓶颈所在。

  在使用Hadoop之前,暴风影音大量的日志都是用awk, perl, mysql+infobright等方式进行分析,这些方式能处理的数据量很有限,而且每天必须限定数据的接收量,这就导致大量的数据业务跑不出来,同时也会对公司的整体产品运营和决策造成拖累。在这种情况之下,很多搜索和数据挖掘的项目根本就无法开展。

  于是,在加入暴风影音数据组之后,向磊与同事便开始调研并尝试使用Hadoop来做日志的分析和处理。在数据团队的整体努力下,暴风终于搭建了第一个8节点的生产集群。虽然它跟现在上百台的集群比起来稍显简陋,但令人欣喜的是,以前一周时间都跑不出来的任务,在这个8节点集群里,仅仅用了几小时就可以完成。这大大提高了数据任务的执行效率,并为产品运营和高层决策提供了巨大的支持。

  据向磊介绍,暴风影音的日志每天以GB为单位接收和存储,截止他离开暴风,日志的数据量已上升到TB级别。在这短短两年的时间内,数据量增长了近千倍,而这期间,数据任务也由每天的几百个,增长到了上万个,增长了数百倍。暴风能在短时间内承受如此庞大的数据增长,Hadoop技术功不可没。在向磊看来,并不是我们没有那么多的数据可以存储和分析,而是我们以前受技术条件的制约,必须限制数据的接收量和分析任务数。相信很多Hadoop的用户也对此感同身受。

  正所谓“除了上帝之外,任何人都必须用数字说话”。在此之后,由于有了大规模数据存储和处理能力,向磊的团队水到渠成地开展了大量数据挖掘工作,例如基于用户浏览史进行系统推荐以及基于这些业务的精准广告投放系统等等。这些工作都为暴风成为今年互联网视频行业的老二打下了坚实的基础。

  易用性是Hadoop推广应用的主要瓶颈

  作为国内第一个开源Hadoop部署管理系统——EasyHadoop的作者,向磊和其团队一直致力于让Hadoop大数据分析变得加简单,并陆续举办了多次免费的技术讲座。EasyHadoop 是一款Hadoop一键安装系统,方便大家更容易安装部署Hadoop软件。 在此前对Hadoop及其周边生态的易用性提升过程中,向磊发现易用性恰恰是Hadoop在推广使用方面的瓶颈。而这不仅仅是在互联网领域,因为互联网领域的人才相对集中,情况还好一些。但在其他领域,易用性会造成更大的问题。

  由于Hadoop是一个复杂的分布式处理系统,对于一般人来说,Hadoop在使用上的难度很大。它不仅需要多方面的知识积累,在整个运维方面也有很多难点需要攻克,而这还仅仅是Hadoop本身。向磊表示,Hadoop的周边生态系统所需要学习和积累的东西更多,学习入门的曲线非常陡峭,这就从一定程度上限制了Hadoop的推广和使用。就好比一架波音747,它可以比自行车更快地抵达目的地,但如果飞行员是稀缺资源,那它的普及也会遥遥无期。而这也是向磊设计EasyHadoop的初衷,顾名思义,EasyHadoop就是希望飞机能够自动起飞和降落,让大家先抵达目的地,然后再慢慢根据个人意愿学习手动驾驶。

  Hadoop 2.0只是工具 人才是推动革新的关键

  向磊坦言,虽然他是一个偏技术型的人,相比于其他事情他可能更喜欢编代码。但他一直认为,Hadoop及其周边生态系统只是工具。诚然,Hadoop 2.0的问世,对于大数据领域的基础平台建设提供了一个更稳定和高效的解决方案。技术的进步是一个非常重要的事情,Hadoop 2的确把大数据领域的技术革新又向前推进了一大步,但他认为更重要的是人的思维,因为毕竟人和人才才是最重要的。大数据这个概念,不仅仅是存储和计算技术的进步,更是一个思维的革命。用数据来推动企业业务发展,推动战略的决策指导,把所有事情作为一个可量化的指标来看待,而不是用所谓的头脑风暴来做决策。因为我们通常都以“差不多”、“大概齐”、“应该”、“可能”为一个评判标准,改变这种固有的思维模式,用数据来做指导,推动企业价值的提高,推动民生领域的建设,这才是大数据能够为我们带来的贡献。俗话说:“你用,或者不用,数据就在那里。”Hadoop开启了一扇通往大数据的门,但是进门之后怎么装修,这就是个发挥个人想象力的事情了。向磊强调,在大数据这个领域,Hadoop是极其重要的工具,但它不能替代人才的重要性,有人才会有创新和革命。

  学好Hadoop 从Linux抓起

  大数据是一种很玄的东西,从大数据中,我们可以从看似毫无关联的事物里发现其隐藏的关联性。这就好比是一个反向的蝴蝶效应,我们从一场大风暴中可以推导出是哪只蝴蝶扇动了翅膀,而Hadoop作为大数据技术的主导者,其在大数据领域的重要性不言而喻,未来这方面的工作机会也非常之多。不过对于广大的Hadoop新手而言,快速地学习并掌握Hadoop这项技术并非易事。对此,向磊建议新手们先从Linux学起,有了Linux的基础,新手们进入Hadoop的世界也能轻松很多。此外,学习一些网络知识也是很有必要的。在向磊看来,编程与开发是学习过程中的重中之重。Hadoop是由全世界的程序员构建起来的开源系统,将来也非常需要新手们的加入和贡献。无论是程序员还是硬件爱好者,他都建议他们多参与开源的项目,一切收获都需要付出,贡献开源之后的收获和乐趣是无法比拟的。

  作为本次Hadoop大会的演讲嘉宾之一,同时也身为资深技术人员的向磊先生对大会充满了期待。他笑言,终于可以有一个不用翻墙就可以和全球技术大牛以及Hadoop主要贡献者进行面对面交流的机会了。在本次大会上,向磊将会与大家分享他在Hadoop自动化运维方面以及降低其生态系统使用难度上的相关经验,希望能为大家使用大数据入门提供帮助。另外,他还推荐参会者多关注国内拥有自主知识产权的大数据创业团队和创业项目。向磊表示,每个人、每个团队身上都有可以学习和借鉴的优点,相信创业团队的宝贵经验也能让广大参会者大有收获。

0
相关文章