新浪童剑:Hadoop优化微博海量数据处理-存储专区

新浪童剑:Hadoop优化微博海量数据处理

作者：蔡思萌编辑：蔡思萌 2013-10-11 18:00 IT168网站原创

　　【IT168 专稿】2013年11月22-23日，作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会，2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时，来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者，以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

　　
▲点击进入2013 Hadoop中国技术峰会官网

　　Haoop中国技术峰会由China Hadoop Summit专家委员会主办，由IT168、ITPUB、ChinaUnix协办，渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题，旨在通过开放、广泛的分享和交流，着力于促进中国企业用户提高应用Hadoop的能力和水平，降低Hadoop技术应用门槛和投资预算门槛，推广大数据的应用价值。

　　在本次大会即将召开之际，IT168记者有幸采访到了本届大会专家委员会的核心成员—— 新浪网研发中心平台架构部总监童剑先生。从2005年开始，童剑便带领团队先后研发了动态应用平台、数据库平台、服务器虚拟化平台、大规模分布式系统。新浪SAE(SinaApp Engine)、云存储、CDN等新一代核心技术平台也在其团队的通力协作下，陆续建成并投入使用。

　　助力微博 Hadoop优化海量数据处理

　　据童剑介绍，目前他主要负责的是新浪基础技术平台的研发和运维管理工作，如数据库平台、应用托管平台、存储平台等等。而面对新浪微博这种超大规模的SNS应用，他所在的团队也不可避免的用到了 Hadoop、Hive、Hbase 等技术来更好的解决问题。其中，名为DIP的数据分析平台是基于 Hadoop、Hive 等软件所构建，主要用于新浪各种产品的日志存储，质量、性能数据的分析，监控数据分析等用途。

新浪童剑:Hadoop优化微博海量数据处理

　　▲新浪网研发中心平台架构部总监童剑先生

　　在微博之前，新浪也曾推出过一系列的互联网服务，比如博客、邮箱等，但这些应用不论在用户数量上还是交互性上，都很难和微博相提并论。

　　2009年，新浪微博正式上线，年底时用户数量已达到1000万。2011年，微博用户数量更是突破千万级单位，年底达到2.8亿。到2013年，这一惊人的数字又翻了近两倍，从今年年初公布的新浪财报中，我们已经能够看到超过5亿的微博用户数量。

　　据了解，随着用户数量的不断扩增，在高峰期，新浪微博的服务器每秒要接受100万以上的响应请求，压力可谓空前。童剑表示，面对如此高的并发访问量，新浪在技术上所遇到的挑战也相当大。比如整体的技术平台如何做性能扩展?局部技术单元如何做性能扩展?并设计系统使能通过增加服务器即可实现服务能力扩容。不过，服务器数量的增加，会带来服务器采购成本的激增，而大量服务器快速部署上线又会对效率提出新的挑战，新困难层出不穷。

　　对此，新浪也在不断地寻找更完善的解决方案来满足他们的需求。童剑团队的思路是：

　　1、先规划整体，从大的技术体系上来保证能有效解决性能问题、成本问题、效率问题、可靠性问题;

　　2、然后再从局部着手，保证每个技术单元都能够从性能、可靠性方面满足需求;

　　3、同时在应用和系统的设计上，增加对故障容错的处理能力;

　　4、在产品运维上，加强风险控制，提高监控的有效性。

　　而在海量数据的处理方面，新浪则分别利用Hadoop的HDFS实现海量数据存储、用MapReduce实现分布式计算，有些数据还使用了HBase进行存储和查询。除此之外，童剑他们也大量采用了Hive、Zookeepr等技术。

第1页：新浪童剑:Hadoop优化微博海量数据处理第2页：集群运维管理和交互仍是Hadoop应用瓶颈

关注我们