存储 频道

腾讯大数据平台的前世今生,你晓得吗?

  【IT168 评论】最近几年,穿越剧频频刷屏。从《宫》系列到《步步惊心》,贯穿剧中人物的前世今生的穿越戏码被观众所追捧,为此,韩国继而翻拍了《步步惊心》。然而,前世今生的剧情不仅在演艺圈如此风靡,换到互联网圈依旧令人着迷。剧情对于技术圈的人来说,也是跌宕起伏。那么,技术更新迭代如此之快,腾讯大数据平台的前世今生,你晓得吗?

  在8月14日由IT168主办的第七期【创客IT168】活动中,腾讯的张俊对于大数据平台的前世今生做了详细的介绍,围绕此主题从三方面分享:首先是腾讯大数据平台做的介绍,第二方面是腾讯大数据的核心系统介绍,最后是腾讯大数据平台在开放的产品化方面的一些思考和实践。

互联网大咖谈腾讯大数据平台的前世今生

  腾讯大数据平台

  腾讯大数据平台经过三个阶段的发展。首先在2009年的时候刚开始搭建像(12:48)的一个集群,到2012年的时候整个规模可达四千台,当然随着业务的发展,不断驱动数据平台,规模不断膨胀,2014年,大数据平台发展规模非常大,单个集群达八千多台的规模,业界单个集群也算是最大的数据的平台。时至2014年的时候开始应用(13:50)比较先进的技术,截至目前,腾讯已有两千多台的一个规模。

互联网大咖谈腾讯大数据平台的前世今生

互联网大咖谈腾讯大数据平台的前世今生

  总体看腾讯大数据平台是由五个大的系统组成,分别是数据采集平台、数据处理平台,其中包括一线处理和时时处理以及数据应用平台,以上是大数据平台的总结。将平台放大,这五个大的平台又细分成五个小的系统,从一个软件站的角度看,可以看到最下层有一个分布式存储,现在业界比较流行(15:13)分布式存储,再往上来看,对资源做一个管理和调度的。由一个可以对GPU对CPU对内存对网络等等的资源做一个总体的调度,再往上可以对数据的处理。

互联网大咖谈腾讯大数据平台的前世今生

  张俊介绍,整个数据平台部覆盖了整个腾讯内部的所有的业务数据,包括大家所熟知的社交、游戏、电商以及媒体。这些数据涉及整个的数据平台上面来做处理和分析,经过整个的数据平台的发展,可以看到这个图是左边的部分,七个字母是代表腾讯的七个大的事业群,由这些事业群每天业务方会产生各种各样的日志或者是其它的数据,这个数据会通过统一的数据平台的收集的系统,把所有的数据统一放到一个数据仓库里面,腾讯会提供一个数据开发者操作的一个入口,给开发者能够对数据进行处理和查询。

  总结下来可以看到整个大数据平台的发展趋势:

  第一个趋势:着业务的驱动,越来越多的数据处理转成时时处理;

  第二个趋势:从一开始(19:28)这样的一个更先进的平台上面去演进;

  第三个趋势:提供积极学习、深度学习的框架的业务方,能够更深度的挖掘这个数据的价值;

  第四个趋势:包括数据平台在内的所有平台能够实现开放,把能力输出出去。

  腾讯大数据平台的核心

  如果关注社区,用户应该都知道像(24:0)的一个系统,是能够做缓冲的一个系统,主要的一个目的是为了截偶,发送方和接收方之间,在时间上和结果上是可以结偶的,还有一个是发送。

  社区有(24:44)是非常主流的,腾讯为什么需要做一个能够缓冲系统出来?张俊表示:我们发现(24:59)看起来是比较牵强,但是在实际的应用的经验来看也是非常重要的一块,如果面对的海量的数据的时候,开源的软件会遇到各种各样的不同的问题,他的稳定性是很差的,这种情况下是需要经常的快速的修复问题,快速的迭代你的系统,根据业务方的需求,能够去快速提供一些新的特性,这时候对于整个系统的一个把控你需要有一个非常高的程度,这时候你如果对这个语言不是很熟的话你在整个系统的维护上面会遇到很多困难,所以我们整个团队都是这个背景,需要自己搭建一套这样的消息中间键,还有其它的问题。

  第二个很大的系统就是叫TW,腾讯的数据仓库,跟社区相比他有什么样的特点?张俊表示:在开源的基础上,根据腾讯的需求做一些定制化的工作,(27:33)很多业务系统是基于(27:38)我们首先非常重要的任务是(27:45),他的应用性给提高,搭建周边的工具等等。

  除此之外,腾讯最近也在(28:18)进行投入,还有一个很重要的是一个多元化的存储,(28:29)在数据平台在业务的使用的场景下满足各种不同的需求,所以在整个的TW,腾讯会提供一整套的数据存储的方案出来,给到不同的使用场景去使用。

互联网大咖谈腾讯大数据平台的前世今生

  开放产品化的思考和实践

  腾讯一直想将腾讯内部的大数据的平台的技术开放出来,因此腾讯在这方面也做了不少思考和实践,大数据的技术的开放有以下几个途径。

  第一个是从应用层,生态系统开始,越来越多的是基于一个系统,在整个社区里面是非常繁荣的,也是开源的,但是会遇到一个问题,你需要搭建一个数据平台的时候,有这么多的开源的工具可以选择,但是你会想应该选择什么样的系统,什么样的版本,怎么部署,怎么管理去测试,去监控,或者是遇到问题的时候怎么去升级,这时候是整个的单纯的开源软件不能解决的问题,所以发现社区里面发展出来的一个(50:2)版本,把流行的(50:6)这三大的一个发行版本,他们主要提供了能够把各个的不同的开源的一个系统都能够整合起来,统一起来,形成一个体系化的东西以供使用,还有会集成一些自营的系统。

  第二个是在腾讯希望把内部的所有的系统统一化,产品化的包装出来,形成一个大数据的套件,能够像一个发行版本一样能够降低你的大数据的门槛,未来的发展趋势需要跟云计算做一个结合,需要提供和大数据平台的云服务,他的核心理念也是根据腾讯在搭建这个大数据平台里面的一些经验。

互联网大咖谈腾讯大数据平台的前世今生

  张俊表示:有三个是需要我们提供的能力,第一个是开放的,你这个平台需要开放;第二个是在数据平台里面的很重要的理念,一定是一个一站式的门户,你的数据平台搭建出来之后你要考虑怎么做运维,怎么做数据的治理开发应用;第三个是一定是多租户的,你在一个企业里面有不同的组织不同的项目,每个项目不同的组织都需要统一的分享统一的平台,怎么对他进行一个隔离一个帐户的管理,这个是腾讯整个大数据套件的架构。

0
相关文章