【IT168 方案】遥感技术是从地面到空间对地球、天体观测的各种综合性技术系统的总称。由遥感平台、遥感仪器以及信息接受、存储、处理与分析应用等分系统组成。遥感技术是正在飞速发展的高新技术,它已经形成的信息网络,正时时刻刻、源源不断地向人们提供大量的科学数据和动态信息。
遥感平台是遥感过程中乘载遥感器的运载工具,主要的遥感平台有高空气球、飞机、火箭、人造卫星、载人宇宙飞船等。遥感器是远距离感测地物环境辐射或反射电磁波的仪器,除可见光摄影机、红外摄影机、紫外摄影机外,还有红外扫描仪、多光谱扫描仪、微波辐射和散射计、侧视雷达、专题成像仪、成像光谱仪等。
遥感器搜集到的原始数据经过接收装置接收后,进行集中式存储,通常是以非结构化文件的形式保存。原始数据的可读性很差,通常需要进行加工处理后,才便于分析。根据分析内容和侧重点不同,原始数据的加工处理方法也不同,同一套原始数据经常需要反复读取和处理。最后,处理后的数据也会保存在存储系统中,可能以非结构化文件形式保存,也可能导入结构化的数据库中,方便以后查阅,或与前端应用系统集成。
需求分析
存储类型
卫星遥感的数据处理系统对存储类型需求多样。卫星遥感的原始数据主要为巨大的非结构化的文件数据,这些原始数据的存储、处理需要基于文件系统的非结构化存储系统作为支撑;经处理后的结果数据,通常需要导入数据库用于后期查询和应用,需要结构化存储系统来支持;此外,整套系统也有数据归档备份相关的需求,需要相应的数据归档备份存储系统。
存储容量
卫星遥感的原始数据量非常巨大,取得这些数据的成本和代价高昂,数据的重要性非常高,需要海量的存储系统对数据进行保存。从目前的应用情况看,有的系统对存储容量的需求会高达上百PB级。
存储性能
卫星遥感的数据存储及处理对存储系统的性能要求很高,特别是并发IO带宽。主要针对原始数据的非结构存储系统,在原始数据采集导入的时候需要较高的写入带宽,需要通过条带化等处理方式加快原始数据写入,避免成为性能瓶颈;原始数据的处理需要频繁的读入原始数据,通常都是通过MPIO等数据并行方式来加快并行处理速度,这需要非结构存储系统提供充足的并发读带宽;对于结构化存储系统,同样有很高的性能要求,卫星遥感的数据库非常庞大,前端应用系统对数据的查询调用开销很大,需要通过有效的方式提高数据库的查询性能,减小前端系统的等待时间。
可扩展性
卫星遥感数据是海量的,且存储容量和存储性能随着业务量的增长而增长。通常一套系统的建设初期数据存储和处理量不大,但未来会出现爆发式的增长。如果采用一次性投入的方式,前期会造成较大的资源浪费,后期存储系统容量及性能不足的时候又较难扩展。因此,较合理及高性价比的方案是采用分批建设,这就要求整套存储系统具有及高的可扩展性,最好能支持在线扩展,避免扩展时对业务系统造成中断。同时,系统扩展时需要做到存储容量和性能的线性增长。
分级存储
卫星遥感的数据量非常巨大,合理的分级存储机制同样是降低系统整体成本,提高效率的有效手段。存储系统可分为在线、近线、离线等部分。在线存储系统的性能较好、容量相对较小,主要用于存储和处理“热点数据”;近线存储系统的性能相对较低,容量较大,主要用于存放较少访问的数据;离线存储一般为数据归档备份系统,用于对历史数据进行归档,或者对关键数据进行备份。
解决方案
根据对卫星遥感领域的大数据需求分析,曙光卫星遥感数据存储处理系统的整体解决方案框架如下:
在数据存储层,Parastor分布式并行存储系统负责非结构化卫星遥感原始数据的存储,Parastor具有大容量、高带宽、线性扩展、易管理、高性价比等特性,自动支持分级存储,支持Windows/Linux等多种客户端,可通过千兆/万兆以太网或InfiniBand高速网提供全局共享的统一文件系统存储;结构化存储系统通过DCstor存储虚拟化控制系统将磁盘阵列存储设备整合成存储资源池,同样具有线性扩展的特性,支持存储分级和自动精简配置,提供FC SAN访问接口,用于结构化数据库存储,再结合XData结构化数据查询分析系统,实现结构化数据的高速查询及分析;DBstor归档备份系统提供非结构化文件及结构化数据库的归档或备份,支持磁带库、虚拟带库等存储设备。
在应用层,数据采集接收系统负责接收卫星数据资料,并将这些原始数据并发写入Parastor分布式并行存储系统;数据处理高性能计算集群负责原始数据的加工处理,由统一的作业调度系统进行资源管理和任务分配,Parastor的高带宽为数据处理的数据并行提供了充分保障,数据计算处理完成后,通过数据库服务器写入到DCstor结构化存储资源池中。前端应用服务器可通过XData数据查询分析系统进行结构数据的快速查询及分析,前端应用服务器也可对Parastor上的原始数据进行查询及分析。
整套系统通过曙光Gridview监控管理平台对存储系统、网络系统、计算集群、应用系统等进行统一监控和管理。
曙光卫星遥感领域大数据整体解决方案,针对卫星遥感的行业应用特点,提供了多种类型的存储资源,支持Windows/Unix/Linux等异构平台,存储系统具有大容量、高并发、高带宽、高性能、高可扩展性等典型特征,满足卫星遥感的数据存储和处理分析需求,还通过分级存储、自动精简配置等方式提高存储资源的利用效率、降低投入和运行成本。大数据存储系统与数据处理系统、前端应用系统等无缝结合,并提供了统一的监控和管理平台,易于管理和使用。