【IT168 现场报道】2016年5月12日-14日,第七届中国数据库技术大会(DTCC2016)在北京国际会议中心正式拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴,DTCC已经同大家携手走过七载春秋。本届是大会创办以来,规模最大,参会人次,参展合作伙伴最多的一次盛会,云集了来自五湖四海的5000余名IT精英,相聚在这里,共话数据库技术发展潮流,共赴大数据浪潮之巅。5月14日下午,在DTCC2016的专场上,Sensors Data CEO(前百度大数据部技术经理)桑文锋,作为一名资深大数据牛人,站在从创业公司服务角度,与大家深度解读了大数据,技术应用以及数据分析方法。
▲Sensors Data CEO(前百度大数据部技术经理)桑文锋
大数据概念
“大数据”的概念是什么?在桑文锋的演讲中,首先将这个问题提了出来。简单来说,大数据的概念可以用四个字来概括。即:“大”、“全”、“细”、“时”。
所谓“大”是什么含义?可以理解为Large,而不是Big。举个例子,比如说:百度每天采集的用户行为数据有 1.5PB 以上;全国各地级市今天的苹果价格数据有 2MB;1998 年 Google 抓取的互联网页面共有 47GB(压缩后);一台风力发电机每天产生的振动数据有 50GB。
“全”是全量而不是抽样。打比方来说,1936 年《文学文摘》收集了 240 万份调查问卷,预测错误;新闻学教授盖洛普只收集了 5 万人的意见,预测罗斯福连任正确;2012 年 Nate Silver 通过互联网采集社交、新闻数据,预测大选结果。
“细”是多维度。“时”就是实时收集数据、实时分析数据。
大数据思维
自“大数据”一词被提出,就被炒得沸沸扬扬。几乎所有的企业都认为大数据是一种趋势,是一种资源,也都想把自家的业务往大数据方向靠一靠,即大数据思维。
桑文锋举出例子,比如,去年流行一个词叫“然并卵”,这样的一个词如果用传统的方式,因为它是一个重新构造的词,在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但是我们发现有许多人在输入了这个词汇,于是,我们可以通过统计发现最近新出现的一个高频词汇,把它加到司库里面并更新给所有人,大家在使用的时候可以直接找到这个词了。再比如说百度地图,它根据每日的路况数据,完全可以告诉你哪条路不堵?半个小时以后,这条路是不是堵车。这里出现一个一个词汇,就是数据驱动,也就是说能否完全运用新的数据。
现有常用方案
在桑文锋的演讲中,提到现有常用方案有三种,分别是第三方统计服务,业务数据库写SQL以及基于日志写统计脚本。而这三种方案有一定的好处的同时,也都存在一些不足。
第三方统计服务这种方案好处在于使用起来比较简单,且服务免费。不足的地方只要体现有三处:数据源:只能覆盖前端 JS/APP SDK 记录的数据,无法覆盖服务端和业务数据库的数据。分析能力:只能覆盖宏观通用分析,使用后还需要数据团队满足运营/产品的各类定制化的需求;安全性:规模稍大一点的公司,不想把核心数据放在第三方平台。
而业务数据库写SQL方案,对比业务数据库与数据仓库两个概念,业务数据库只能记录当前状态,而数据仓库却能提供历史记录。故而不足的地方是计算能力有限,无法水平扩展,且业务人员不易理解和影响业务分析逻辑。
基于日志写统计脚本这种方案的好处在于与业务数据库解耦。不足的地方表现为开发效率低( 2 天/个,重复开发)且准确性无法保证。另外,技术性较强,数据流难以管理。
理想状态方案
那么,如何建立理想的数据分析方法呢?桑文锋给出了一套理想状态方案。首先是数据采集,要求全量且精细,经过数据传输,有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给上面的业务分析人员,它可能本身是杂乱的,需要完善的数据源。再到数据建模(要求多维度),数据模型就是对现实世界的一个抽象化的数据的表示。在数据分析方,特别是针对用户行为分析方面,目前比较有效的一个模型就是多维数据模型,在线分析处理这个模型,它里面有这个关键的概念,一个是维度,另一个是指标,最后再到数据查询。
▲更多大会资讯,请查看大会专题:http://www.it168.com/redian/16DTCC/