存储 频道

Hadoop部署调查:大数据迎来高速发展期

  【IT168 调查报告】不可否认,当前IT正处于一个变革时代,诸多与IT技术相关的行业都不断涌现出了新的技术与趋势,那么对于这些新的技术趋势,用户是怎样理解的?其关注度如何?在2012年年末,IT168.com与旗下ITPub、ChinaUnix社区及其合作网站共同展开了针对当前热点IT技术的调查活动。

  本次调查主要面向服务器、存储、网络以及技术开发等与IT密切相关的行业,涵盖了目前业内包括企业信息化、桌面虚拟化、Hadoop架构、下一代防火墙、BYOD、IT运维和大数据应用等7大讨论较为火热的话题。本次调查共回收17,101份问卷,其中有效问卷14,522份。

  得益于市场的宣传,企业用户对于大数据这一概念的接受程度越来越高,作为一个较为廉价并且开源的大数据解决方案——Hadoop,也越来越受到用户的关注。在IT168.com进行的一项关于Hadoop部署的专项调查显示,将近79%的企业用户已经部署或预计在未来一年内部署Hadoop或相关的大数据解决方案,在这之中,HDFS、MapReduce和Hbase分别以20%、18%和14%的比例位列前三。

  大数据,给人第一印象就是数据量大,并且单位时间内的新增数据量较大。大多数企业用户都达成这样一个共识,大数据解决方案不可能一蹴而就,并且如何从大数据处理中获得与投入相匹配的收益是目前一个较为棘手的问题,所以从用户的反馈情况来看,其通常采用一种循序渐进的方式部署大数据解决方案,不断地积累企业内部数据,然后根据业务不断地完善这一方案。

  在对3440名企业IT主管或IT技术工程师进行调查后,经统计显示,91%的受调查者表示,其所在企业的每月新增数据大约在500GB以下,其中,39%的受调查者表示,其每月新增数据在11GB-100GB之间,26%的受调查者认为其所在企业的每月新增数据为101GB-500GB。具体如下图所示:

Hadoop部署调查:大数据迎来高速发展期

  从上图可以看出,仅有5%的受调查者表示,其所在企业每月的新增数据在500GB以上,而每月新增数据超过1TB的企业仅为4%。从这一点可以看出,中国企业目前每月的新增数据量并不算太大。当然这可能也与大数据这一概念才被企业用户所接受有关。

  尽管如此,但毋庸置疑的是,不管受何种因素引导,大数据处理已经越来越被企业用户所接受。据IT168.com的统计结果显示,57%的受调查者表示在未来一年内计划部署Hadoop解决方案来进行大规模数据处理,这一点也间接佐证了上文提到的有关用户接受度的问题。仅有21%的受调查者表示,目前没有部署Hadoop等相关大数据处理解决方案的打算。而与之相对的是,22%的受调查者反应,其所在企业已经部署并使用了大数据处理解决方案。具体如下图所示:

Hadoop部署调查:大数据迎来高速发展期

  结合上两个图表,我们可以看到,在第一个图表中,26%的受访者表示,其所在企业每月的新增数据在10GB以下;而第二个图表则显示21%的受调查者表示没有部署大数据解决方案的计划。

  从IT168.com的调查结果来看,目前企业考虑部署或者已经部署Hadoop解决方案都还处于起始阶段,不管是从部署Hadoop的节点规模,还是Hadoop开发人员的配置,以及运行在Hadoop之上的应用数据和数据量来看,其规模都比较小。具体如下所示:

中国企业的Hadoop部署还处于起始阶段

  从上图可以看出,目前大多数企业(83%)所部署的Hadoop节点数规模还在20个以下,超过20个节点规模的企业仅为17%。

中国企业的Hadoop部署还处于起始阶段

  受限于企业所部署的Hadoop节点规模,其所配置的开发人员也较少,仅有10%的受调查者表示,其所在企业的Hadoop开发人员超过10人。90%的受调查者表示,其所在企业配备的Hadoop开发人员在10人以下,其中仅40%的受调查者表示,其所在企业的Hadoop开发团队规模在7-10人之间。

中国企业的Hadoop部署还处于起始阶段

  由于规模和开发团队的影响,其运行在Hadoop上的应用规模也普遍偏小,15%的受调查者表示其所在企业部署在Hadoop上的应用规模超过了20个,其中仅11%的企业应用规模在20-50个之间。

  而有85%的受调查者表示,其所在企业部署于Hadoop之上的应用规模在20个以下,30%的企业在Hadoop之上的应用规模为6-10个,33%的企业所部署在Hadoop之上的规模为5个以下,中国企业用户部署Hadoop的规模还较小,正处于起始阶段。

中国企业的Hadoop部署还处于起始阶段

  同样,在回答用于Hadoop集群中的数据规模这一问题时,91%的受调查者表示,其所在企业用于Hadoop集群中大数据规模在1TB以下,其中30%的受调查者认为,其用于Hadoop的数据规模为100GB-500GB之间,而35%的企业用于Hadoop的数据规模在100GB以下,这一部分的用户比例是最高的。仅有9%的受调查者表示,其所在企业用于Hadoop集群中的数据规模在1TB以上,其中3%的受调查者称,其企业用于Hadoop的数据规模在5TB以上。

  在回答企业部署Hadoop解决方案的主要作用时,20%的受调查者表示主要是为了降低数据分析的成本,而紧随其后(18%)的企业则是为了日志分析和WEB搜索。具体如下图所示:

中国企业部署Hadoop的主要用途

  从上图可以看出,仅有13%和13%的受调查者表示,其所在企业目前Hadoop的主要作用是细分市场的客户分析和改善商业智能(BI)。Hadoop在绝大部分企业环境中所发挥的作用还较小,这与前面所提到的应用规模较小等因素有关。

  在回答部属了何种Hadoop技术或工具这一问题时,HDFS、MapReduce和Hbase分别以20%、18%以及14%的比例位列前三。具体如下图所示:

中国企业部署Hadoop的主要用途

  从这一统计结果来看,目前企业所部署的Hadoop解决方案大多还停留在数据管理的层面,对大数据进行挖掘与分析还有待后续继续开发。

  作为一款开源的大数据解决方案,Hadoop在短短几年内就发布了多个版本,可见其用户群体之庞大。而这也给诸多企业用户带来了很多的难题。在谈到Hadoop的优点时,节省成本是其风靡全球的重要因素之一,26%的受调查者表示,这也是受Hadoop吸引的重要因素之一。

大数据分析:Hadoop前景看好

  除了节省成本之外,Hadoop的重要优势还在于其对“大数据处理效率高”(24%的受调查者认为),以及“开源代码,便于二次开发”(22%)。仅有17%的受调查者认为其具有强有力的开源支持,同时也仅有10%的受调查者认为,其能取代传统数据仓库厂商的解决方案。

  当然,作为一款新兴的开源软件,对于用户来说,其在使用和二次开发方面还存在不少的问题。有23%的受调查者认为,学习Hadoop及其相关技术的难度较大; 20%的受调查者亦表示,很难找到这方面的专业人才。

大数据分析:Hadoop前景看好

  同时,22%的受调查者表示,目前没有商业化工具,服务还不够完善,这是目前Hadoop面临的一大尴尬问题。另有21%的受调查表示,在Hadoop方面,目前还缺少中文社区的支持,而这一因素间接提高了中国用户学习Hadoop技术的门槛。

  尽管Hadoop目前还存在诸多问题,但绝大多数的受调查者(93%)都表示看好Hadoop在未来的发展前景,其中36%的受调查者非常看好Hadoop,认为这是未来大数据分析的“利器”。仅有5%的受调查者表示不看好Hadoop的发展,另有2%的受调查者对Hadoop的前景表示沉默。

1
相关文章