存储 频道

驾驭海量数据!文件存储与管理瓶颈调研

  【IT168 专稿】所谓结构化数据就是数据库数据,可以存储在数据库里,用二维表结构来逻辑表达。不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,也就是我们常说的文件数据,包括所有格式的办公文档、文本、图片、xml、HTML、各类报表、图像和音频/视频信息等等。

  随着各种家庭数字终端的兴起,以及web 2.0广泛应用,个人所产生的数据量开始飞速膨胀,而这些由个人产生的数据,则大多数都是非结构化的文件型数据,例如我们的个人照片、视频、文档等等。

调研主要结论

  与此同时,在过去三年中,企业部署的应用类型发生了很大的变化。基于更以文件为中心的存储基础架构而运行的一组新型应用(例如Web服务器、电子邮件、电子记录和数字媒体)在公司的企业数据中正占据越来越高的比例。鉴于基于文件类型的非结构化数据的增速极快,IDC认为,到2012年,全球存储市场的总出货量中将有80%的容量被文件级数据所覆盖。

  本调研重点针对当前企业数据中心环境中,海量文件数据的产生规律和发展趋势,以及海量文件数据存储与管理的现状与瓶颈,了解企业对文件存储与管理方面的需求特点和采购倾向。

  调研主要结论

  本次调研对象样本分布较为平均,从员工规模在1-49人的中小企业到员工超过1万人的大型企业均有涵盖。

  28.4%的企业受访对象拥有服务器数量超过250台,受访企业范围覆盖较广,从3-5台服务器到250台以上的服务器应用环境均有涉及。

  83.3%的受访对象分别在产品技术的需求、推荐、评估、决策过程中扮演了不同的角色,发挥不同程度的影响力,且对企业数据中心产品技术较为了解。

  超过六成受访企业认为系统中文件数据量呈较为明显和快速的增长趋势。

  应用文件服务器以及服务器内置存储空间的用户总计占54.7%,在整体比例中占较高比例,显示这些受访对象除了解决文件存储问题外,暂时在文件管理方面无显著需求。

  数据显示存储空间不足、员工电脑终端数据无法有效管理以及数据量过于庞大,无法有效查找到需要的数据成为企业用户面临的首要三大问题。

  28.9%的受访企业选择因为人为误操作导致文件丢失事故;27.2%的受访企业选择因为硬盘损坏导致文件丢失;这两个原因在是导致企业文件丢失的普遍原因。

  调研对象企业规模

  上图显示,22.5%的调研对象所任职的企业规模大于等于10000人,员工规模在5000-9000人之间的企业调研对象占总体受访对象比例的5.1%,19.0%的受访对象企业员工规模在1000-4999范围内,员工规模在500-999范围内的受访对象企业也占据了总体受访对象的12.7%,20.5%的企业受访对象员工人数在100-249范围内,员工人数在50-99范围内的企业受访对象占4.8%,另有9.9%的受访企业表示其员工人数在1-49人范围内。

调研对象企业规模与采购角色

  总体数据显示,本次调研对象样本分布较为平均,从员工规模在1-49人的中小企业到员工超过1万人的大型企业均有涵盖。

  调研对象采购角色

  上图显示,27.7%的受访对象在采购过程中是产品和服务的实施人员;21.8%的受访对象在企业采购过程中承担技术决策者角色;18.0%的受访对象可推荐具体的产品和服务;12.1%的受访对象在采购过程中担任评估产品和服务的角色;3.7%的受访对象决定是否有采购需求; 1.8%的受访对象属于财务决策者,此外,14.9%的受访对象与企业采购过程无直接联系。

调研对象企业规模与采购角色

  在企业级产品的采购过程中,涉及到的流程和环节往往较为复杂,采购周期长,参与采购决策的人群角色也较为复杂,不同环节上的采购人员对对产品、技术和解决方案有不同层面的需求和考虑,同时在不同层面对采购的最后决策起了不同程度的影响力。

  占调研对象最大比例的是技术和服务的实施者,占总体调研对象27.7%。这部分人群多数为企业的系统管理员、维护人员或者数据中心经理,属于一线的产品应用人员,对系统应用的具体问题和瓶颈有深入理解和把握。

  除去14.9%的受访对象认为自己和采购过程无直接关系,以及1.8%的财务决策者,83.3%的受访对象分别在产品技术的需求、推荐、评估、决策过程中扮演了不同的角色,发挥不同程度的影响力,且对企业数据中心产品技术较为了解。

  调研企业服务器数量

  企业数据中心服务器数量能够一定程度上反映该企业的信息化建设状况和应用复杂度情况,上图显示,28.4%的企业受访对象拥有服务器数量超过250台;7.9%的受访企业数据中心内部服务器数量在100-249台范围内;12.4%的受访企业拥有服务器数量在50-99台范围内;服务器数量在10-49台范围内的企业受访对象占27.8%;服务器数量在6-9台之间的企业占5.4%比例,另有18.1%的受访企业拥有服务器数据量小于5台。

  受访企业整体数据量

  存储系统容量的变化间接的代表着企业发展规模的走势,它体现着企业在发展的过程中,信息化建设达到了一个什么程度,这最终也影响企业未来信息化建设的方向和策略。

  调研数据显示,11.1%的受访企业数据中心数据量超过500TB;数据量在100-500TB范围内的受访对象比例为6.2%;数据量在51-100TB范围内的调研对象占总体比例6.2%;8.6%的受访对象后台数据存储量在11-50TB范围内;数据量在3-10TB范围内的受访对象占总受访对象比例的18%;总体数据量不到3TB的受访对象比例为22.1%,此外,有25.8%的受访对象表示不清楚企业数据量状况。

受访企业服务器数量与整体数据量

  我们认为,存储容量在3TB以下的企业往往属于信息化建设程度并不十分成熟的中小企业,调研数据显示,这部分企业在整体调研企业中的比例为22.1%,在整体受访对象中占有较大比例。包括数据量在3-10TB范围内的受访企业,数据量小于10TB的受访企业在总体受访对象中可达到40.1%的比例,大部分受访企业对象对存储容量需求并不十分庞大;其余容量区段内的调研对象则分布较为平均。

 

受访企业服务器数量与整体数据量

  非结构化数据增长趋势

  上图显示受访对象对文件型数据增长趋势的判断和认知,除23.6%的企业受访对象对数据中心文件型数据增长速度表示不清楚外,7.4%的企业受访对象认为其数据中心中文件型数据数据量呈爆炸式增长趋势(增长速度超过200%);18.1%的企业受访对象认为其数据中心文件型数据将有大幅的增长,增长速度在100%-200%之间;认为其企业文件型数据量将在30-100%速度范围内增长的企业受访对象占整体比例的39.3%;此外,11.6%的企业受访对象认为该企业文件型数据增长较慢,增长速度将在30%以下。

  实际上,企业应用可分为数据库应用以及文件型应用两类,前者顾名思义主要基于Oracle、SQL等数据库应用而产生,后者则主要基于不同类型文件数据的生成、编辑、分享等过程。尽管数据库应用往往要求高性能、高IOPS低延时的存储系统,多数属于企业关键业务应用,但数据量增长则并不十分明显,文件型应用则往往会产生大量的文件数据,对存储系统的容量需求增长也较为明显。

  存储采购成本调研

   在问及受访企业所能承受的数据保护与存储的价格范围时,39.5%的企业选择不清楚,表示能接受每TB成本低于1000元的受访企业占整体17.1%的比例;表示能接受每TB成本在1000-3000元范围内的受访企业占整体19.6%的比例;二者相加,显示对每TB文件数据存储成本的接受范围在3000元以下的受访企业占整体受访企业的35.7%,在整体受访企业中占据较大比例。

非结构化数据增长趋势

   在这一价格区间范围内,用户可考虑采购文件服务器或者中小企业NAS,实际上,对于文件数据存储来说,NAS网络存储设备可能更加适用于文件共享,并方便未来的扩容需求。目前NAS包括许多不同的产品类型,从极为廉价到更加精密的机箱、再到那些需要一定安装和配置培训的以价格模块定价的NAS设备。用户需要在价格、性能和技术特性之间做出平衡的选择。

 

  文件型数据的存储方式

  目前,各个厂商都针对文件型数据推出了不同的存储方案,不过从上图可看出,采用文件服务器进行文件数据存储的仍然占据最多数,在总体企业受访对象中占据32.9%比例;应用服务器内置存储空间存储文件数据的受访企业占据21.8%的比例;16.3%的受访企业选择了通过NAS网关共享SAN网络存储空间进行文件数据存储;还有13.1%的受访企业通过NAS网络存储来进行文件存储;10.1%的企业通过集群NAS解决文件存储问题;表示应用分布式文件系统解决文件存储的企业占总体受访企业的9.2%;选择多协议支持的统一存储系统的受访企业占总体受访企业的3.9%;此外,还有16.9%的受访企业表示不清楚目前是如何解决文件数据存储的问题。

文件数据存储现状与瓶颈

  从调研数据看,应用文件服务器以及服务器内置存储空间的用户总计占54.7%,在整体比例中占较高比例,显示这些受访对象暂时在文件存储方面没有太高需求。10.1%的受访企业选择集群NAS存储解决文件存储的问题,表明这些企业文件型数据存储与管理的压力更大,需要更有效的架构解决文件数据存储问题。实际上,数据规模的爆炸性增长和由此产生的对存储I/O性能的更高要求使集群存储有了更广阔的发展空间。无疑,高性能、高容量以及可扩展性是集群存储得以发展的最得人心的特征。

  文件数据存储瓶颈

  尽管厂商基于文件数据存储与管理问题推出了不同的解决方案,但企业在应用和管理海量文件数据时,仍然会遇到不同的问题,以上我们将企业在存储与应用文件数据过程中遇到的一些常见的问题列出,并由企业选择哪些问题和矛盾对企业来说更为重要和突出。数据显示存储空间不足、员工电脑终端数据无法有效管理以及数据量过于庞大,无法有效查找到需要的数据成为企业用户面临的首要三大问题。

文件数据存储现状与瓶颈

  调研显示,25.8%的企业认为目前文件数据存储系统面临系统空间不足的问题,需要扩容。根据前面对文件数据量增长趋势预测的调研结果,绝大部分受访企业认为系统中的文件数据呈较明显的增长趋势,由此带来对存储容量空间的需求压力。21.5%的受访企业认为企业员工电脑中还存在大量有价值的信息无法统一管理,成为文件数据管理的漏洞和瓶颈,这一问题则为企业内容管理系统(ECM)带来市场机会,此外,云存储(无论是公共云还是私有云)也能够较好的解决这一问题。

  16.4%的企业受访对象认为企业信息系统中的数据量过于庞大,无法快速有效的查找到需要的数据,对这部分企业来说,企业内容搜索引擎存储管理的必要功能。此外,企业用户在海量文件数据存储与管理方面遭遇的问题还包括:读写性能不足、重要数据缺乏有效备份、设备稳定性不够,经常宕机、大量数据以纸本形式存在无法电子化管理、以及缺乏版本管理等等。

  文件丢失事故的概率与原因调研

  在问到企业是否发生过重要文件数据丢失事故时,3.9%的受访对象表示经常发生文件丢失的事故;43.6%的受访企业表示发生过1-2次重要文件丢失的事故;4.5%的受访企业表示发生过3-5次重要文件丢失的事故;3.9%的企业受访对象表示经常发生文件丢失的事故,此外,还有24.2%的企业受访对象表示从来没发生过重要文件丢失的事故;而23.8的企业受访对象则表示不清楚文件丢失事故发生的情况。

  在对企业文件丢失事故的原因进行调研时,28.9%的受访企业选择因为人为误操作导致文件丢失事故;27.2%的受访企业选择因为硬盘损坏导致文件丢失;选择这两个选项的受访对象比例远远高于其他选项,显示这两个原因在是普遍导致文件丢失的两个原因。

  人为因素是指由于管理员或员工的活动造成数据的损失或变更,使数据的完整性与真实性受到影响,一般是由于意外事故(如误删除、误格式化或误分区、误克隆等误操作)、系统管理员出错(如通信不畅)或蓄意破坏、窃取。人为因素带来的后果是:刚刚读过的或录入的数据突然找不到;已存储的数据被破坏或无法读出。对此,在系统管理过程中尽可能的采用自动化操作,减少人为操作的环节可大幅度避免该原因导致系统出错。

  硬盘损坏则是极为常见的导致数据丢失的原因,尽管厂商往往宣称其硬盘产品的高可靠性,丹市场上销售的SATA硬盘往往存在较高的故障率,而应用过一段时间后,硬盘的故障率还将进一步提高。一般来说,RAID系统能够一定程度上避免硬盘故障导致的数据丢失,如RAID1、RAID5都能够在一块硬盘失效后对数据进行修复,但在两块硬盘失效的情况下,则仅有RAID6数据保护模式能够保护数据不丢失,而RAID6由于复杂冗余和校验算法导致系统大量的开销,一般企业很少采用,也因此,硬盘可靠性问题成为数据安全的重要的潜在隐患。对数据进行有效备份,并经常性的进行恢复演练确保备份的有效性则能够最大程度的降低因为硬盘故障导致数据丢失的可能性。

0
相关文章