存储 频道

新浪童剑:Hadoop优化微博海量数据处理

  【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

  
点击进入2013 Hadoop中国技术峰会官网

  Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在本次大会即将召开之际,IT168记者有幸采访到了本届大会专家委员会的核心成员—— 新浪网研发中心平台架构部总监童剑先生。从2005年开始,童剑便带领团队先后研发了动态应用平台、数据库平台、服务器虚拟化平台、大规模分布式系统。新浪SAE(SinaApp Engine)、云存储、CDN等新一代核心技术平台也在其团队的通力协作下,陆续建成并投入使用。

  助力微博 Hadoop优化海量数据处理

  据童剑介绍,目前他主要负责的是新浪基础技术平台的研发和运维管理工作,如数据库平台、应用托管平台、存储平台等等。而面对新浪微博这种超大规模的SNS应用,他所在的团队也不可避免的用到了 Hadoop、Hive、Hbase 等技术来更好的解决问题。其中,名为DIP的数据分析平台是基于 Hadoop、Hive 等软件所构建,主要用于新浪各种产品的日志存储,质量、性能数据的分析,监控数据分析等用途。

新浪童剑:Hadoop优化微博海量数据处理

  ▲新浪网研发中心平台架构部总监童剑先生

  在微博之前,新浪也曾推出过一系列的互联网服务,比如博客、邮箱等,但这些应用不论在用户数量上还是交互性上,都很难和微博相提并论。

  2009年,新浪微博正式上线,年底时用户数量已达到1000万。2011年,微博用户数量更是突破千万级单位,年底达到2.8亿。到2013年,这一惊人的数字又翻了近两倍,从今年年初公布的新浪财报中,我们已经能够看到超过5亿的微博用户数量。

  据了解,随着用户数量的不断扩增,在高峰期,新浪微博的服务器每秒要接受100万以上的响应请求,压力可谓空前。童剑表示,面对如此高的并发访问量,新浪在技术上所遇到的挑战也相当大。比如整体的技术平台如何做性能扩展?局部技术单元如何做性能扩展?并设计系统使能通过增加服务器即可实现服务能力扩容。不过,服务器数量的增加,会带来服务器采购成本的激增,而大量服务器快速部署上线又会对效率提出新的挑战,新困难层出不穷。

  对此,新浪也在不断地寻找更完善的解决方案来满足他们的需求。童剑团队的思路是:

  1、先规划整体,从大的技术体系上来保证能有效解决性能问题、成本问题、效率问题、可靠性问题;

  2、然后再从局部着手,保证每个技术单元都能够从性能、可靠性方面满足需求;

  3、同时在应用和系统的设计上,增加对故障容错的处理能力;

  4、在产品运维上,加强风险控制,提高监控的有效性。

  而在海量数据的处理方面,新浪则分别利用Hadoop的HDFS实现海量数据存储、用MapReduce实现分布式计算,有些数据还使用了HBase进行存储和查询。除此之外,童剑他们也大量采用了Hive、Zookeepr等技术。

  集群的运维管理和交互仍是Hadoop应用瓶颈

  Hadoop源于互联网,也回馈于互联网,互联网企业可以说是当前Hadoop技术应用最广泛、最深入的领域。如今大多数机构都已经部署了各自的IT业务系统,Hadoop技术与现有IT架构如何实现无缝整合,成为了许多用户非常关心的话题。在童剑看来,目前互联网领域的Hadoop应用在大规模的使用情况下,瓶颈还是比较多的。一方面是集群的运维管理和监控,这方面的工具现在还不够成熟,需要运维工程师有较为丰富的经验。运维工程师除了要掌握硬件的资源使用情况,还需要部署一些管理软件来实现管理。另一方面则是由于集群中各组件之间的交互响应性能较差,在集群达到一定规模后,要有针对性的对其进行改进和优化。

集群运维管理和交互仍是Hadoop应用瓶颈

  不过,在市场开放创新的机制下,相信Hadoop技术的瓶颈会逐渐被破解。从发展的角度来看,Hadoop的进步以及应用的普及自然离不开Hadoop技术爱好者的贡献。对于国内为数众多的Hadoop初学者,童剑建议他们首先要多了解MapReduce计算模型,多学习HDFS分布式存储系统的设计原理和实现。Hadoop是对MapReduce模型的开源实现。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种高容错的方式并行处理T级别的数据集,实现Hadoop在集群上的数据和任务的并行计算与处理。HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。另外,童剑认为Hadoop新手还应对Java语言有较多的了解,要敢于在学习的过程中多尝试,多付诸实践。

  据悉,Hadoop中国技术峰会2013是国内基于Hadoop平台的第一次全产业链的大数据行业技术峰会,大会将围绕Hadoop生态系统展开全方位的技术分享、专题讨论与成果展示。大会议题将涉及以下七大方面:Hadoop技术创新、Hadoop基础架构部署与优化、虚拟化与Hadoop、Hadoop在互联网领域的应用、Hadoop在非互联网行业的应用、Hadoop与企业现有IT架构的整合、大数据创业与投资。

  更多精彩尽在2013年11月22~23日的Hadoop中国技术峰会(China Hadoop Summit 2013),北京永泰福朋喜来登酒店。

  现在报名即可享购票优惠。

 

11
相关文章