存储 频道

Intel夏俊鸾:Spark是大数据框架佼佼者

  【IT168 现场报道】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


▲IT168专题报道:http://www.it168.com/redian/Hadoop2013/

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在本届China Hadoop峰会第二天的“下一代计算框架Spark”专场中,英特尔大数据处理部门的夏俊鸾先生为大家带来了题为《基于内存的大数据处理框架——Spark》的主题演讲,以下为夏俊鸾的演讲实录。

Intel夏俊鸾:Spark是大数据框架佼佼者
▲英特尔大数据处理部门夏俊鸾

  谈到英特尔对开源社区和Spark的贡献,夏俊鸾介绍说,Spark是一个开源项目,今年6月份进入孵化器,它是目前继Hadoop之后比较火的大数据处理开源社区。英特尔公司从去年中旬开始向Spark开源社区贡献,目前已于阿里巴巴、优酷、爱奇艺等公司进行合作。

Intel夏俊鸾:Spark是大数据框架佼佼者
▲英特尔对Spark社区的贡献

  Spark在处理数据分析方面有比较大的优势。在目前英特尔中国贡献给Spark开源社区的列表中,有三个Committers,七-八个参与社区建设,贡献50+Patches,改进性能,并增加了公平调度等等。夏俊鸾表示,英特尔在国内算是比较早加入Spark开源社区建设的企业,所以英特尔也会与互联网公司探讨,让Spark在国内真正落地,真正地用在生产线上,而不仅仅是开源或实验室产品,能不能进入产业界、成功上线是他们首要考虑的一个问题。

Intel夏俊鸾:Spark是大数据框架佼佼者

  据悉,目前大数据在互联网公司应用的场景,最主要是在广告、报表、推荐系统领域。广告有应用分析、效果分析、定向优化,报表分析有一些网站、平台,而在一些推荐系统中,大数据的体现则是排名、个性化推荐、热点点击的分析。

  夏俊鸾指出,他们在合作过程中发现客户的痛点主要有两点。第一是做API速度非常慢,我们会等比较长时间,目前做一些预处理工作,可能把实现查询进行预处理,预先存到关系人库里边去,由于我们查询纬度非常广,而且过程中随机性比较大。你可能存很多数据,最终利用率非常低。

  第二个痛点则是图像分析算法,主要进行多次的迭代,另外一个他们目前做一些ORAP新增能用各种各样工具,可能牵扯各个团队、各个部门,Spark对他们而言是比较好的选择,能够处理并解决这些痛点。

  可以说Hadoop已经形成了一个比较完整的生态体系。那么Spark的生态体系又是怎样的呢?夏俊鸾认为,对于Spark,它从一开始就要无缝的融入到生态系统。为什么这么说呢?因为我们可以看到这个大数据的处理框架,一般分为四层,最下面一层,我们可以看作是Cluster的这个资源调度层,比如说有Mesos,或者是Yarn,再上面一层是有HDFS分布式存储层,那么Spark只是跟Map Reduce并行的一个层次,是大数据处理层,那么目前来说,Spark是无缝的融入到HDFS这样的一个分布式存储层,以及Yarn能够完整的支持Yarn,Yarn或者说Yarn能够完美的来支持Spark,所以说在目前的国内或者国外的Cluster里面,只要你们有Yarn,或者有HDFS,就能无缝的把Spark接入到里面来。

2
相关文章