新浪童剑:Hadoop优化微博海量数据处理-存储专区

新浪童剑:Hadoop优化微博海量数据处理

作者：蔡思萌编辑：蔡思萌 2013-10-11 18:00 IT168网站原创

　　【IT168 专稿】2013年11月22-23日，作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会，2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时，来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者，以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

　　
▲点击进入2013 Hadoop中国技术峰会官网

　　Haoop中国技术峰会由China Hadoop Summit专家委员会主办，由IT168、ITPUB、ChinaUnix协办，渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题，旨在通过开放、广泛的分享和交流，着力于促进中国企业用户提高应用Hadoop的能力和水平，降低Hadoop技术应用门槛和投资预算门槛，推广大数据的应用价值。

　　在本次大会即将召开之际，IT168记者有幸采访到了本届大会专家委员会的核心成员—— 新浪网研发中心平台架构部总监童剑先生。从2005年开始，童剑便带领团队先后研发了动态应用平台、数据库平台、服务器虚拟化平台、大规模分布式系统。新浪SAE(SinaApp Engine)、云存储、CDN等新一代核心技术平台也在其团队的通力协作下，陆续建成并投入使用。

　　助力微博 Hadoop优化海量数据处理

　　据童剑介绍，目前他主要负责的是新浪基础技术平台的研发和运维管理工作，如数据库平台、应用托管平台、存储平台等等。而面对新浪微博这种超大规模的SNS应用，他所在的团队也不可避免的用到了 Hadoop、Hive、Hbase 等技术来更好的解决问题。其中，名为DIP的数据分析平台是基于 Hadoop、Hive 等软件所构建，主要用于新浪各种产品的日志存储，质量、性能数据的分析，监控数据分析等用途。

新浪童剑:Hadoop优化微博海量数据处理

　　▲新浪网研发中心平台架构部总监童剑先生

　　在微博之前，新浪也曾推出过一系列的互联网服务，比如博客、邮箱等，但这些应用不论在用户数量上还是交互性上，都很难和微博相提并论。

　　2009年，新浪微博正式上线，年底时用户数量已达到1000万。2011年，微博用户数量更是突破千万级单位，年底达到2.8亿。到2013年，这一惊人的数字又翻了近两倍，从今年年初公布的新浪财报中，我们已经能够看到超过5亿的微博用户数量。

　　据了解，随着用户数量的不断扩增，在高峰期，新浪微博的服务器每秒要接受100万以上的响应请求，压力可谓空前。童剑表示，面对如此高的并发访问量，新浪在技术上所遇到的挑战也相当大。比如整体的技术平台如何做性能扩展?局部技术单元如何做性能扩展?并设计系统使能通过增加服务器即可实现服务能力扩容。不过，服务器数量的增加，会带来服务器采购成本的激增，而大量服务器快速部署上线又会对效率提出新的挑战，新困难层出不穷。

　　对此，新浪也在不断地寻找更完善的解决方案来满足他们的需求。童剑团队的思路是：

　　1、先规划整体，从大的技术体系上来保证能有效解决性能问题、成本问题、效率问题、可靠性问题;

　　2、然后再从局部着手，保证每个技术单元都能够从性能、可靠性方面满足需求;

　　3、同时在应用和系统的设计上，增加对故障容错的处理能力;

　　4、在产品运维上，加强风险控制，提高监控的有效性。

　　而在海量数据的处理方面，新浪则分别利用Hadoop的HDFS实现海量数据存储、用MapReduce实现分布式计算，有些数据还使用了HBase进行存储和查询。除此之外，童剑他们也大量采用了Hive、Zookeepr等技术。

　　集群的运维管理和交互仍是Hadoop应用瓶颈

　　Hadoop源于互联网，也回馈于互联网，互联网企业可以说是当前Hadoop技术应用最广泛、最深入的领域。如今大多数机构都已经部署了各自的IT业务系统，Hadoop技术与现有IT架构如何实现无缝整合，成为了许多用户非常关心的话题。在童剑看来，目前互联网领域的Hadoop应用在大规模的使用情况下，瓶颈还是比较多的。一方面是集群的运维管理和监控，这方面的工具现在还不够成熟，需要运维工程师有较为丰富的经验。运维工程师除了要掌握硬件的资源使用情况，还需要部署一些管理软件来实现管理。另一方面则是由于集群中各组件之间的交互响应性能较差，在集群达到一定规模后，要有针对性的对其进行改进和优化。

　　不过，在市场开放创新的机制下，相信Hadoop技术的瓶颈会逐渐被破解。从发展的角度来看，Hadoop的进步以及应用的普及自然离不开Hadoop技术爱好者的贡献。对于国内为数众多的Hadoop初学者，童剑建议他们首先要多了解MapReduce计算模型，多学习HDFS分布式存储系统的设计原理和实现。Hadoop是对MapReduce模型的开源实现。在Hadoop的体系结构中，MapReduce是一个简单易用的软件框架，基于它可以将任务分发到由上千台商用机器组成的集群上，并以一种高容错的方式并行处理T级别的数据集，实现Hadoop在集群上的数据和任务的并行计算与处理。HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了Hadoop分布式集群的主要任务。另外，童剑认为Hadoop新手还应对Java语言有较多的了解，要敢于在学习的过程中多尝试，多付诸实践。

　　据悉，Hadoop中国技术峰会2013是国内基于Hadoop平台的第一次全产业链的大数据行业技术峰会，大会将围绕Hadoop生态系统展开全方位的技术分享、专题讨论与成果展示。大会议题将涉及以下七大方面：Hadoop技术创新、Hadoop基础架构部署与优化、虚拟化与Hadoop、Hadoop在互联网领域的应用、Hadoop在非互联网行业的应用、Hadoop与企业现有IT架构的整合、大数据创业与投资。

　　更多精彩尽在2013年11月22～23日的Hadoop中国技术峰会(China Hadoop Summit 2013)，北京永泰福朋喜来登酒店。

　　现在报名即可享购票优惠。

关注我们