存储 频道

新浪童剑:Hadoop优化微博海量数据处理

  集群的运维管理和交互仍是Hadoop应用瓶颈

  Hadoop源于互联网,也回馈于互联网,互联网企业可以说是当前Hadoop技术应用最广泛、最深入的领域。如今大多数机构都已经部署了各自的IT业务系统,Hadoop技术与现有IT架构如何实现无缝整合,成为了许多用户非常关心的话题。在童剑看来,目前互联网领域的Hadoop应用在大规模的使用情况下,瓶颈还是比较多的。一方面是集群的运维管理和监控,这方面的工具现在还不够成熟,需要运维工程师有较为丰富的经验。运维工程师除了要掌握硬件的资源使用情况,还需要部署一些管理软件来实现管理。另一方面则是由于集群中各组件之间的交互响应性能较差,在集群达到一定规模后,要有针对性的对其进行改进和优化。

集群运维管理和交互仍是Hadoop应用瓶颈

  不过,在市场开放创新的机制下,相信Hadoop技术的瓶颈会逐渐被破解。从发展的角度来看,Hadoop的进步以及应用的普及自然离不开Hadoop技术爱好者的贡献。对于国内为数众多的Hadoop初学者,童剑建议他们首先要多了解MapReduce计算模型,多学习HDFS分布式存储系统的设计原理和实现。Hadoop是对MapReduce模型的开源实现。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种高容错的方式并行处理T级别的数据集,实现Hadoop在集群上的数据和任务的并行计算与处理。HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。另外,童剑认为Hadoop新手还应对Java语言有较多的了解,要敢于在学习的过程中多尝试,多付诸实践。

  据悉,Hadoop中国技术峰会2013是国内基于Hadoop平台的第一次全产业链的大数据行业技术峰会,大会将围绕Hadoop生态系统展开全方位的技术分享、专题讨论与成果展示。大会议题将涉及以下七大方面:Hadoop技术创新、Hadoop基础架构部署与优化、虚拟化与Hadoop、Hadoop在互联网领域的应用、Hadoop在非互联网行业的应用、Hadoop与企业现有IT架构的整合、大数据创业与投资。

  更多精彩尽在2013年11月22~23日的Hadoop中国技术峰会(China Hadoop Summit 2013),北京永泰福朋喜来登酒店。

  现在报名即可享购票优惠。

 

11
相关文章