存储 频道

张晓东:大数据时代的软件开发模型探析

  【IT168 技术】12月2日-3日,以主题为“海量数据掘宝”的Hadoop中国2011云计算大会在北京会议中心召开。本次大会邀请了Apache软件基金会主席 Doug Cutting先生、威斯康星大学教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘宝、华为、支付宝、奇虎、新浪、中兴、曙光、腾讯、人人网、清华大学、英特尔以及百度等学术机构、国际知名公司的资深工程师。

张晓东:大数据时代的软件开发模型探析
▲点击进入IT168 Hadoop大会直播专题

  模型的作用,模型最早是1945年提出的,并指导了我们40年的时间。到90年代,提出了BSP。但到目前,这些模型已经无法满足目前的开发现状了,我们目前并没有一个切合的模型来指引我们。

  BSP是用来指导并行运算的。这是一个计算机硬件的模型,其中含有诸多的参数;这也是一个项目模型,指导我们计算技术的开发。总结了硬件和软件之后,就形成了Cost模型。但这个模型之所以不适用现在,那么大数据时代的软件开发需要怎样的模型呢?来自美国俄亥俄州的讲席教授张晓东将我们分享其最新的研究成果。

张晓东:大数据时代的软件开发模型探析
▲美国俄亥俄州大学讲席教授张晓东

  BSP已经无法适用于大数据时代,张教授认为Scale-out将非常适用于大数据分析。但是在大数据时代,很多已有软件已经不适用于大数据分析,所以我们需要开发新的软件来进行大数据分析。那么软件开发必须要遵循一个模型。

张晓东:大数据时代的软件开发模型探析
▲传统的BSP模型

  张教授认为针对大数据分析的统一模型需要诸多的因素。张教授及其团队针对模型进行研究,初步提出了DOT模型。

张晓东:大数据时代的软件开发模型探析

  张教授认为,针对大数据分析,首先必须将大数据进行分割,然后进行处理分析,各个处理机之间相互独立,处理完毕之后再进行统一汇总。这种方式可以分成很多组对大数据进行处理分析。

张晓东:大数据时代的软件开发模型探析

  在这个模型之中,最关键之处是整个数据处理模型的矩阵。其用矩阵的表达方式如下:

张晓东:大数据时代的软件开发模型探析

  那么使用矩阵的方式怎么来表达数据呢?张教授给我们展示以下这张幻灯片:

张晓东:大数据时代的软件开发模型探析

  同样的也可以用矩阵来表达分组数据分析,如下图:

张晓东:大数据时代的软件开发模型探析

  张教授表示,这个模型还处于起步阶段,还有诸多难题需要解决。

0
相关文章