存储 频道

赖能和:软件定义存储 构建弹性数据空间

  【IT168 专稿】IBM再造存储,立足大数据,再度激起业界对于存储的热情。再次掀起对软件定义存储的思考。今天,IBM主办的“ROCK EDGE CHINA 2014——为大数据时代再造存储摇滚盛典”在北京的万达索菲特酒店拉开帷幕。

  对于IBM存储系统,东方地球物理勘探有限责任公司研究院总工程师赖能和可以说是深有体会。作为IBM超过30年的老客户,赖能和在本次大会上与大家分享了他利用IBM弹性存储的经验和心得体会。

  ▲东方地球物理勘探有限责任公司研究院总工程师赖能和

  赖能和介绍说,他来自中石油,主要负责领域包括油气勘探,数据处理、解释。中石油公司还有一些装备、信息化建设,在全球经营,在国外有30多个国家都有中石油的机构。目前,公司拥有10万台CPU,高端服务器,另外存储有35个PB。

  他认为,软件定义存储为大数据提供了弹性数据空间。这个题目有三个新的东西在里面,软件定义SDS、大数据、弹性存储空间。他通过三个问题引出了对软件定义存储的讨论:

  第一,为什么现在油气勘探会进入大数据时代?

  第二,大数据时代给IT行业带来哪些机会和挑战?

  第三,对这些机遇和挑战我们怎么来解决?

  赖能和表示,首先,我们为什么说油气勘探进入大数据时代。主要有两个原因,一个是高性能计算机的发展,促进了油气勘探技术的进步。这张图非常复杂,可以讲一上午,为什么?实际上现在我们做油气勘探干什么,大家都知道,我们就是给地球的近地表做CT。过去只能做一些黑白的,现在有彩色的,很多技术70年代就有了,随着计算机的发展,才使得我们有一些70年代的技术,比如波动方程这方面空间化的应用成为可能。

  第二,我们刚才说到做CT,采样点多了以后,搞油气勘探,把采样点加密以后,对我们数据成像提高非常多。我们做了两张片子,地下看的很清楚,右面看的很清楚,左边看不清楚,左右两边成本差很多,数据会增加很大很大。现在这种高密度采集已经成为油气勘探整个趋势,地质勘探已经进入了大数据时代,数据会越来越大。

  我这里举几个例子,这是国外的两个区块,一个文件500个T,很多都是超过500个T的数据,非常大。国内现在是50个T,30个T以上的数据很多很多了,很快要处理完,那么大的数据怎么做。那么大数据对我们计算机这一个行当,无论是HPC还是存储带来什么机遇和挑战,机遇就是要求越来越多的CPU要求越来越多的存储,是不是买一些普通存储就行呢?不行。买普通存储解决不了大数据问题,对HPC有带来非常大的挑战。一个是配置要求非常高,都是高端服务器,第二就是存储很大,每套系统都要配几千个T的存储才能解决问题。实际上存储IO是一个非常大的瓶颈问题,如何提高集群的利用率,解决存储和CPU之间的瓶颈,这是我们目前最主要的问题。左边的例子可以看到,CPU的利用率大概40恩%左右,已经很高了,因为我们365天一直在开着机器,利用率才达到百分之四、五十左右。很多CPU的利用率发掘不出来。

  还有一个问题就是能耗,我们有很多数据中心,这是其中某一个数据中心,需要的电费两、三千万,怎么降下来,如果用普通的技术肯定不行,比如说闪存技术将来就会对我们有非常大的帮助。那么大的数据怎么解决,我们有几个体会。第一,对这种I/O密集型的运算,我们配置了高性能的并行处理系统,加上海量的数据处理闪存系统。对于大数据,文件是几百个T,解方程,求解的话,用普通存储阵列是不行的。这里有156个亿的记录,用普通的盘阵要18天才能做完,用闪存3天就做完了,提升了6倍。这只是其中某一小部分,我们还有很多步骤,通过这种技术我们很快的解决了这个问题,也就是Flash存储。

  海量数据需要并发处理,还不是并行处理。我们买存储,买小存储便宜,不行的。这里有一个例子,最右边,我们同时送100个任务上去,用普通存储和用弹性存储速度差好几倍。用高性能并发I/O的弹性存储能够很好的解决并发问题。

  对海量数据的交互处理,我们有很多数据库操作,用普通存储很难解决。可以看到这里有一个例子,目前我们采用的是IBM弹性存储,目前达到了7个PB。通过这几年的应用,7种性能是非常稳定的,持续的I/O并发也非常高。加速模块Flash现在是810,峰值达到20个GB左右,消除了我们过去数据瓶颈的问题,满足了海量并发处理的要求。弹性存储加上Flash加速模块以后很好的解决了交互的问题,这里有两个数据,如果不加加速卡的话,300多秒打一个命令才能反应,加了加速卡20多秒就能反应过来。所以性能提高还是非常快的,因为我们一套系统是有几百人同时用,这样如果没有很好的加速大家做起来是很烦的。

  我们把数据库原数据放在Flash盘上去,能够很好的提升我们的I/O性能,这里我们也做了一个实验,用IBM的弹性存储,我们的数据库用的是甲骨文,能够提升14000倍左右。用普通的存储肯定是不行的。

  在演讲的最后,赖能和用四句话概括今天的发言:

  1.地震勘探已进入高密度采集、大数据的时代,我们需要很大规模的计算机。一般企业很多满足不了,我们有国家的测试中心。

  2.海量数据处理,我们还是需要高性能、大容量、低功耗、可扩展性的并行存储,靠普通的存储很难解决海量数据,另外就是功耗问题。

  3.闪存技术的应用,目前效果还是非常明显的,解决了很多用普通的HDD很难解决的疑难问题。

  4.弹性存储比如说像IBM的SOSS+FlashS810,架构很灵活,非常的简单,性价比也是非常好的。而且可以根据需要,随时进行横向扩展,而且它的扩展我们做过对比,性能是线性增加的。这是从它的可靠性、可扩展性完全能够满足我们海量数据的并行处理。

  目前来说这种系统我们主要是用在海量数据的处理系统上,下一步我们会把处理、解释、油气开发都做进去,因为我们有很多数据中心,不同区域的云计算平台把它整合在一起,通过弹性存储的空间整合成一个。

2
相关文章