驾驭海量文件存储
初志科技选择GIS行业重点切入其实不无道理。王超在ESRI展会过程中的交流中发现,GIS行业用户往往采用传统的SAN/NAS架构平台作为后端存储,普遍反映系统响应慢,并担心应用可靠性。
随着ESRI新一代GIS产品ArcGIS 10的发布,更多用户开始考虑从空间信息分享转移到空间信息的协同作业上去,在复杂多变的环境中实现高效的信息共享和协同工作。其基础架构的重新规划也成为用户开始首要关注的问题。

人头攒动的初志科技展台
王超还特别谈到了海量数据的定义的问题:“传统意义上的海量数据往往会给人数据量很大的感觉,这样的理解其实并不全面,海量的一方面是容量特别大,另外一个方面则是文件数量特别多。”
对于GIS应用而言,很多情况下数据的存储容量并不一定很大,只有几十个TB左右,但由于GIS领域特有的立体切片、遥感、三维图像等等应用特性,系统中存在着海量的4-8KB的小图片。
众所周知,对于大多数系统来说,最头疼的就是大规模的小文件存储与读取,因为磁头需要频繁的寻道和换道,因此在读取上容易带来较长的延时。在大量高并发访问量的情况下,简直就是系统的噩梦。新一代GIS应用所要求的协同处理带来的并发访问压力,尤其是公共GIS可支持手机终端访问,带来大量的并发访问压力,实际上对后端系统的性能压力相当大。
初志科技自主知识产权的CZSS集群存储系统则很好的适应海量文件存储与管理的应用环境,初志集群系统采用了元数据和数据存储集群分离的技术,这一架构尤其适合于海量文件的检索与查找,元数据节点成为独立的集群,标配SSD提高数据检索查询速度,用户可按需仅扩展元数据节点提高文件管理查询性能,或者仅扩展数据存储节点提高文件存储容量。

初志集群存储双群架构示意图
此外,CZSS集群存储的全局文件数据冗余技术能够保障系统内无单点故障,允许在一套系统中为不同应用的数据设置不同的冗余度,并可以动态在线设置冗余度,实现动态在线扩容和容量均衡,当系统在线和生产时,扩容不需停机,通过自动平衡系统将文件数据引入新的存储节点;支持异构环境共享,无需对应用系统打内核补丁,提供类似于本地磁盘的盘符,向下兼容传统SAN设备及原有的应用。
王超介绍,CZSS元数据集群节点最大可扩展128个,根据目前的实际应用数据,在元数据节点在12个左右的时候,可管理的海量文件数量达到5-60亿。而ESRI与初志的联合测试数据显示,在GIS的多图片架构支持方面,CZSS集群存储系统性能表现十分优异。