【IT168 专稿】在上文:“成长型企业存储采购指南一:数据增长问题”中,我们已经解释了,由于成长性企业往往业务处于高速发展的阶段,因此无法对下期发展做可行的规划,因此往往存在需求不确定性。
以上文D主任的公司为例,通过IBM XIV网格存储系统集群存储的架构就能很好的匹配未来的业务和数据量的增长,而且数据扩容的过程极为简单易行,与此同时,初期投入的成本能让大多数企业易于接受。但是对于大多数企业,混合型的工作流负载也是在采购过程中需要注意的一个因素。
这不,D主任同样遇到了这样的问题。
原来,D主任公司在开始的时候,业务模式和应用都比较简单。随着业务的发展和风险投资的引入,老板打算上好几个新项目,包括视频点播、包括用户社区、还有在线游戏,这下应用一下子复杂起来了,数据类型也多了,怎样能够在这种复杂的多应用环境下,保持良好的整体性能呢?
S博士不慌不忙的解释:虽然D主任这边的应用复杂了很多,但是对于后端存储系统来说,主要是两方面的数据类型。一方面,D主任需要满足并发访问的要求,是一个数据库的检索的过程;另外一方面,整个系统中又还存在大量的文件型的数据,比如word文档、flash动画、图片……还包括一些视频的文件。
这两种数据类型队后端存储系统的需求也不太一样,数据库数据每次IO的数据块小,大概只有4K、8K的大小,但是要完成很大的并发访问,需要每秒钟完成多次离散的IO;文件型数据读写的次数少,但每次需要读写的数据量却比较大。
刚刚我们已经介绍过了集群存储系统的扩展模式,是前端的处理能力随着后端的磁盘容量一起成比例的扩展。与这种硬件架构相匹配的,是大规模并发的内部处理能力。
以IBM XIV网格存储系统为例,XIV的一个网格处理单元包括了IO、处理器、缓存和低成本的SATA磁盘,无数个网格处理单元紧密地联系在一起,进行并发的处理,因此能够以Tier 2 的成本带来Tier 1的性能。
传统的存储系统往往根据应用,需要划分特定的空间给主机,一方面操作起来极为复杂,另外一方面,这种静态的配置也许在开始的时候能较好的与应用匹配,但经过一段时间后,一些应用的工作负荷发生变化,读写较为频繁,且数据增长较快,原先划分的资源可能会已经不适用于这个应用现状。
XIV能够通过内部的算法,把每个文件拆分成1MB的大小,并根据伪随机的算法,将这1M的数据存储在内部任意一个网格处理单元中的任意一块磁盘上,与此同时在另外任意一个网格中也放置一份拷贝。直至整个系统达到相当的利用率,并保证每个网格处理单元的利用率保持在差不多的水准。
整个过程由系统自动完成,管理员完全不需要管理内部的数据如何分布,极大的简化了操作过程。由于系统自动把所有的工作负载都分割成了1M的处理单元,对于系统来说,每个1M的处理任务享有相同的优先权,不存在任何任务优先级的划分,无论是高IO的数据量访问,还是大文件读取的操作,对于系统都会通过大规模并发的操作,提供良好的性能。
其实不仅仅是互联网企业,大部分企业内部的应用类型和数据类型都会比较复杂。例如说,一家企业往往有关键数据库的应用,同时也存在各种文件型数据存储,包括文件归档种种应用。企业复杂的内部数据形成了对存储系统的混合型负载。
一般的存储系统往往会划分业务的优先级,将优势的资源保证一些重点业务应用,这样带来的问题有两点,第一,非重点业务应用的服务水平可能会过低;其次,静态的划分资源的方式对于增长的应用数据可能会出现不匹配的情况。
XIV网格存储系统通过内部独特的算法,对所有的任务资源分配采用了完全均衡的处理模式,通过大规模的并发操作,保证了不同应用、不同数据类型的较一致的服务水平。