存储 频道

新浪童剑:Hadoop优化微博海量数据处理

  【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

  
点击进入2013 Hadoop中国技术峰会官网

  Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在本次大会即将召开之际,IT168记者有幸采访到了本届大会专家委员会的核心成员—— 新浪网研发中心平台架构部总监童剑先生。从2005年开始,童剑便带领团队先后研发了动态应用平台、数据库平台、服务器虚拟化平台、大规模分布式系统。新浪SAE(SinaApp Engine)、云存储、CDN等新一代核心技术平台也在其团队的通力协作下,陆续建成并投入使用。

  助力微博 Hadoop优化海量数据处理

  据童剑介绍,目前他主要负责的是新浪基础技术平台的研发和运维管理工作,如数据库平台、应用托管平台、存储平台等等。而面对新浪微博这种超大规模的SNS应用,他所在的团队也不可避免的用到了 Hadoop、Hive、Hbase 等技术来更好的解决问题。其中,名为DIP的数据分析平台是基于 Hadoop、Hive 等软件所构建,主要用于新浪各种产品的日志存储,质量、性能数据的分析,监控数据分析等用途。

新浪童剑:Hadoop优化微博海量数据处理

  ▲新浪网研发中心平台架构部总监童剑先生

  在微博之前,新浪也曾推出过一系列的互联网服务,比如博客、邮箱等,但这些应用不论在用户数量上还是交互性上,都很难和微博相提并论。

  2009年,新浪微博正式上线,年底时用户数量已达到1000万。2011年,微博用户数量更是突破千万级单位,年底达到2.8亿。到2013年,这一惊人的数字又翻了近两倍,从今年年初公布的新浪财报中,我们已经能够看到超过5亿的微博用户数量。

  据了解,随着用户数量的不断扩增,在高峰期,新浪微博的服务器每秒要接受100万以上的响应请求,压力可谓空前。童剑表示,面对如此高的并发访问量,新浪在技术上所遇到的挑战也相当大。比如整体的技术平台如何做性能扩展?局部技术单元如何做性能扩展?并设计系统使能通过增加服务器即可实现服务能力扩容。不过,服务器数量的增加,会带来服务器采购成本的激增,而大量服务器快速部署上线又会对效率提出新的挑战,新困难层出不穷。

  对此,新浪也在不断地寻找更完善的解决方案来满足他们的需求。童剑团队的思路是:

  1、先规划整体,从大的技术体系上来保证能有效解决性能问题、成本问题、效率问题、可靠性问题;

  2、然后再从局部着手,保证每个技术单元都能够从性能、可靠性方面满足需求;

  3、同时在应用和系统的设计上,增加对故障容错的处理能力;

  4、在产品运维上,加强风险控制,提高监控的有效性。

  而在海量数据的处理方面,新浪则分别利用Hadoop的HDFS实现海量数据存储、用MapReduce实现分布式计算,有些数据还使用了HBase进行存储和查询。除此之外,童剑他们也大量采用了Hive、Zookeepr等技术。

11
相关文章