Intel夏俊鸾:Spark是大数据框架佼佼者-存储专区

Intel夏俊鸾:Spark是大数据框架佼佼者

作者：蔡思萌编辑：蔡思萌 2013-11-23 20:00 IT168网站原创

　　【IT168 现场报道】2013年11月22-23日，作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会，2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者，以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

▲IT168专题报道：http://www.it168.com/redian/Hadoop2013/

　　Hadoop中国技术峰会由China Hadoop Summit专家委员会主办，由IT168、ITPUB、ChinaUnix协办，渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题，旨在通过开放、广泛的分享和交流，着力于促进中国企业用户提高应用Hadoop的能力和水平，降低Hadoop技术应用门槛和投资预算门槛，推广大数据的应用价值。

　　在本届China Hadoop峰会第二天的“下一代计算框架Spark”专场中，英特尔大数据处理部门的夏俊鸾先生为大家带来了题为《基于内存的大数据处理框架——Spark》的主题演讲，以下为夏俊鸾的演讲实录。

▲英特尔大数据处理部门夏俊鸾

　　谈到英特尔对开源社区和Spark的贡献，夏俊鸾介绍说，Spark是一个开源项目，今年6月份进入孵化器，它是目前继Hadoop之后比较火的大数据处理开源社区。英特尔公司从去年中旬开始向Spark开源社区贡献，目前已于阿里巴巴、优酷、爱奇艺等公司进行合作。

▲英特尔对Spark社区的贡献

　　Spark在处理数据分析方面有比较大的优势。在目前英特尔中国贡献给Spark开源社区的列表中，有三个Committers，七-八个参与社区建设，贡献50+Patches，改进性能，并增加了公平调度等等。夏俊鸾表示，英特尔在国内算是比较早加入Spark开源社区建设的企业，所以英特尔也会与互联网公司探讨，让Spark在国内真正落地，真正地用在生产线上，而不仅仅是开源或实验室产品，能不能进入产业界、成功上线是他们首要考虑的一个问题。

　　据悉，目前大数据在互联网公司应用的场景，最主要是在广告、报表、推荐系统领域。广告有应用分析、效果分析、定向优化，报表分析有一些网站、平台，而在一些推荐系统中，大数据的体现则是排名、个性化推荐、热点点击的分析。

　　夏俊鸾指出，他们在合作过程中发现客户的痛点主要有两点。第一是做API速度非常慢，我们会等比较长时间，目前做一些预处理工作，可能把实现查询进行预处理，预先存到关系人库里边去，由于我们查询纬度非常广，而且过程中随机性比较大。你可能存很多数据，最终利用率非常低。

　　第二个痛点则是图像分析算法，主要进行多次的迭代，另外一个他们目前做一些ORAP新增能用各种各样工具，可能牵扯各个团队、各个部门，Spark对他们而言是比较好的选择，能够处理并解决这些痛点。

　　可以说Hadoop已经形成了一个比较完整的生态体系。那么Spark的生态体系又是怎样的呢?夏俊鸾认为，对于Spark，它从一开始就要无缝的融入到生态系统。为什么这么说呢?因为我们可以看到这个大数据的处理框架，一般分为四层，最下面一层，我们可以看作是Cluster的这个资源调度层，比如说有Mesos，或者是Yarn，再上面一层是有HDFS分布式存储层，那么Spark只是跟Map Reduce并行的一个层次，是大数据处理层，那么目前来说，Spark是无缝的融入到HDFS这样的一个分布式存储层，以及Yarn能够完整的支持Yarn，Yarn或者说Yarn能够完美的来支持Spark，所以说在目前的国内或者国外的Cluster里面，只要你们有Yarn，或者有HDFS，就能无缝的把Spark接入到里面来。

关注我们