存储 频道

EasyHadoop向磊:学好Hadoop从Linux抓起

  【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  星环科技孙元浩:Hadoop应用的三个阶段

▲点击进入2013 Hadoop中国技术峰会官网

  在本次大会即将召开之际,IT168记者有幸采访到了本次大会的特邀演讲嘉宾——EasyHadoop软件作者、前暴风影音开发经理向磊先生,请他分享了自己对Hadoop应用现状、Hadoop 2.0及未来发展的理解。

  除了上帝之外 任何人都必须用数字说话

EasyHadoop向磊:学好Hadoop从Linux抓起

▲EasyHadoop软件作者向磊

  供职暴风影音数据部门期间,向磊曾负责python的map/reduce代码开发,以及数据部门Hadoop和HBase集群的优化和运维工作。此前,他还曾独立完成EasyHadoop和phpHiveAdmin两个开源项目,目的皆在于降低Hadoop在自动化运维和使用方面的门槛,并已部署于一些大型的互联网公司内部。目前,除了一方面与中科普开合作开展Hadoop的培训工作,向磊也在继续进行Hadoop生态系统相关的易用性以及数据挖掘和可视化的开发工作。同时他还致力于将Hadoop与硬件相结合,比如将Hadoop向ARM这种节能架构的硬件上迁移等实践性工作。

  自从互联网诞生伊始,互联网公司在IT技术领域就秉承了“开放、共享、创新”的互联网精神。随着大数据时代的到来,Hadoop已经成为大数据领域最炎手可热的技术。除了百度、阿里巴巴这些大互联网公司之外,越来越多的互联网公司开始尝试和使用Hadoop,拥有1.5亿用户的暴风影音也不例外。

  向磊透露,在使用Hadoop之前,暴风影音曾遇到过很大的瓶颈。众所周知,暴风影音的装机量和使用量均位居全国前列,前一阵更是超越了国内绝大多数的竞争对手,在日活跃上仅次于优酷。作为一个客户端软件,这是一个非常了不起的成绩。机遇与挑战并存,在暴风亮眼成绩的背后是呈爆炸性增长的海量数据,而这也是暴风影音的瓶颈所在。

  在使用Hadoop之前,暴风影音大量的日志都是用awk, perl, mysql+infobright等方式进行分析,这些方式能处理的数据量很有限,而且每天必须限定数据的接收量,这就导致大量的数据业务跑不出来,同时也会对公司的整体产品运营和决策造成拖累。在这种情况之下,很多搜索和数据挖掘的项目根本就无法开展。

  于是,在加入暴风影音数据组之后,向磊与同事便开始调研并尝试使用Hadoop来做日志的分析和处理。在数据团队的整体努力下,暴风终于搭建了第一个8节点的生产集群。虽然它跟现在上百台的集群比起来稍显简陋,但令人欣喜的是,以前一周时间都跑不出来的任务,在这个8节点集群里,仅仅用了几小时就可以完成。这大大提高了数据任务的执行效率,并为产品运营和高层决策提供了巨大的支持。

  据向磊介绍,暴风影音的日志每天以GB为单位接收和存储,截止他离开暴风,日志的数据量已上升到TB级别。在这短短两年的时间内,数据量增长了近千倍,而这期间,数据任务也由每天的几百个,增长到了上万个,增长了数百倍。暴风能在短时间内承受如此庞大的数据增长,Hadoop技术功不可没。在向磊看来,并不是我们没有那么多的数据可以存储和分析,而是我们以前受技术条件的制约,必须限制数据的接收量和分析任务数。相信很多Hadoop的用户也对此感同身受。

  正所谓“除了上帝之外,任何人都必须用数字说话”。在此之后,由于有了大规模数据存储和处理能力,向磊的团队水到渠成地开展了大量数据挖掘工作,例如基于用户浏览史进行系统推荐以及基于这些业务的精准广告投放系统等等。这些工作都为暴风成为今年互联网视频行业的老二打下了坚实的基础。

0
相关文章