存储 频道

拯救数字宇宙中的残酷存储现实

【IT168 资讯】当我自己刻录的DVD光盘达到200张,而我的所有硬盘,包括台式机、笔记本和移动硬盘、数码伴侣都被装满的时候,我突然发现,我的家里已经没有存储设备供我存放我的文件了,除非我再去买更多可刻录的DVD光盘,但是我原有的200多张DVD、500多张CD已经把我的柜子、书桌占满了。

当我为这一切迷茫的时候,IDC的分析报告告诉我说:2007年,创建的信息量将首次超出可用的信息存储容量。而我,对这句话现在深信不疑。同时,IDC中国副总经理万宁先生在一次研讨会上指出,到2010年,信息装置量和用户量还会增长50%,信息创建将更加便宜,用户将更加多,对过去数据的激活和使用会更加频繁,所有这些将创建更多的数字信息。

我还没有心思去想2010年的事情,我只想尽快的腾空我在2007年爆满的硬盘。


残酷的数字宇宙存储现实

实际上,上面IDC的报告来自于一次EMC和IDC联手做的调查,《数字宇宙膨胀:到2010年全球信息增长预测》报告显示了全世界每年创建和复制的信息总量,找出了构成信息增长的信息种类因素和地理区域因素。2006年产生、获取和复制的数字信息总量为1288×1018个比特。用计算机用语来说,就是161EB或1610亿GB(见“什么是比特和字节?”部分)。这大约是有史以来出版的图书信息总量的300万倍。从2006年到2010年,数字宇宙的信息量将增长6倍多,从161EB增加到988EB。

在这份报告里,我们看到的是一个几乎被数字信息淹没的世界,越来越多的数字信息被创造出来,但是很快的,就像那些流行歌曲、进口大片一样又迅速的被人们所遗忘,慢慢的,我们发现,在我们的音乐库、电影库等等资料库中积存了大量的数据,而这些数据对我们的诱惑,就像“赌石”一样高深莫测,也许里面有着我们需要的大量信息,能够帮助我们认识世界,发现未来,提升企业的经营活动,也许就像乱发的小广告和过街天桥上办的假证,都是一些无用甚至是垃圾的信息。

当然,我们也会发现,在一个电影资料库里有着同一部影片的数个拷贝,占用了大量的空间,可是如果我们想扔掉它,却必须面对这样一个现实:越来越少的拷贝能够保证数据完好的保存下来么?要知道,知名的NASA,美国国家航空航天管理局就曾经出现过一个令人遗憾又有些滑稽的“事故”:人类首次登上月球的高清晰版录像带没了踪影,而这盘录像带远比传回地球的视频清晰数倍。

当然,除了这些,我们还有许多要担忧的,比如那些远没有萨班斯法案知名的,让我们存储更多信息的法规,如SEC、NARA、FOIA和DOD ,甚至我们还能够举出比这多一倍的法规。还有越来越多的新信息,比如说VoIP电话成了企业网络的一部分、楼宇自动化和安全保障系统进入了IP网络、监控系统实现了数字化、RFID和传感器网络在激增。对了,还有越来越多的Blog、PodCast、WebCast以及数码相机、摄像机制造的个人信息,尤其是视频信息,据称,从数码相机、相机电话、医用扫描仪到保安摄像头,全世界有10亿多个设备在拍摄影像,这些影像成为数字宇宙中最大的组成部分。这些影像通过互联网、企业内部网在PC和服务器以及数据中心中复制,通过数字电视广播和数字投影银幕播放。

同时,在我们制造的这些信息之下,所有的人发现,我们已经越来越离不开这些数字信息了。

除了每天都要面对电脑之外,我们的生活也和这些信息密切相关,比如说天气预报,我们每天看到的天气预报,是通过对大量过往历史数据和新的卫星图片、航拍照片而分析出来的,只有信息更多更准确,图片更清楚才可以获得准确的预报。另外,当Google的股价朝着300美元挺进的时候,我们发现,如此多的信息让我们只要掌握一种简单的方法就可以成为“专家”,那就是搜索,而在搜索背后,是人类从第一台计算机ENIAC开始就积累起来的数字信息。

当然,对于这些信息最依赖的还是企业们,他们被我们所说的那些法律所要求存储各种各样的信息,也因为越来越多的商业智能、知识管理、交易分析而主动的把信息存放起来,但是他们却发现,面临两个极为棘手的问题,一是利用,二是存储。利用就是如何使用这些信息,分析这些信息,存储则说起来简单做起来难――其实就是如何用最少的磁盘、磁带、光盘等介质存储数据,并用最少钱却又最快的速度将它们连接起来。


拯救宇宙的三项技术

从目前的情况来看,我很看好三项技术和一个市场,这其中的三项技术被认为是最能解决信息的存放、利用需求的,而这一个市场,将会是整个存储行业未来的最大爆发点。

重复数据删除技术

首先,我们要谈的是三项技术,第一项技术就是重复数据删除技术,无论是基于文件的重复数据删除或者叫做单一实例存储,还是基于块的重复数据删除技术,都能够大幅度降低用户存储的重复数据,就像那些群发的电子邮件所带的相同附件和更改只有几个字节的文档或记录,通过删除重复的数据,用户可以用比原来少的多的容量去存储相同的数据。我们在此并不去考虑什么是基于文件还是基于块,或者粒度的问题,只是想告诉大家,重复数据删除(或是说其中包含有的单一实例存储),可以节省用户的存储介质的宝贵空间。

不过也要注意到,重复数据删除由于从物理层解析冗余重复的数据块,或是对文件的相似度进行比较,因此所以对于重复性较高的数据库和文件系统的备份任务,其压缩比相应较高。可是如果用户的数据重复性较小,比如说作为文件服务器、FTP下载、邮件服务器或者内容服务器的数据存储,以及对于压缩文件格式的数据处理,比如说视频、音频、图片、图纸以及其它已经经过压缩的文件,其用处就有些不明显了。因此如何有效利用现有空间,也就让第二项技术走到了台前。

自动精简配置技术

用户大量的数据不仅难以存储,而且为了防止数据“溢出”,避免存储容量紧张,很多用户都迫不得已的去购买了大量的存储设备,将它们放在系统中备用,从而造成了大量的浪费,同时,这些存储设备的散热、电力供应也让企业花了不少冤枉钱,因此,如何高效的利用空间,比如说能够回收LUN被删除或修改后所释放的空间,成为了很多企业都非常关注的事情。

同时,一般来说,企业构建存储系统的第一步,是将存储空间分配给各个应用系统,然而,当存储空间分配给某一个应用系统使用后,其它应用系统就无法运用这个空间。通常在早期部署阶段时,管理员很难精确知道各应用系统的实际容量需求,因此分配之后,许多磁盘空间就相当于被「锁住」,造成空间浪费。

一般来说,企业构建存储系统的第一步,是将存储空间分配给各个应用系统,然而,当存储空间分配给某一个应用系统使用后,其它应用系统就无法运用这个空间。以传统的做法来说,企业都会预先买许多存储空间以应对数据的增长,因为通常在早期部署阶段时,管理员很难精确知道各应用系统的实际容量需求,因此分配之后,许多磁盘空间就相当于被“锁住”,造成空间浪费。

举例来说,企业第一年可能仅需要100GB容量,但若一开始仅购买100GB,日后要扩充至1TB时就要更改设定,尤其当前端服务器不支持动态扩展功能时,后端存储系统要扩充容量就会很麻烦,甚至需要停机维护,为了要避免这些困扰,许多企业会选择一开始购买1TB的容量。但若一开始就购买1TB容量,初期使用率会很低。

无论是被叫做自动精简配置还是小储量预备,或者是我们认为最贴切的“存储资源随需分配”,这项技术能够让前端的服务器以为存储设备安装了比实际还多的存储容量,让存储空间的使用率再提升。作为一种存储虚拟化技术,关键在于能让前端的服务器以为存储设备安装了比实际还多的存储容量,比如存储设备的真实容量只有100GB,却可透过Thin Provisioning技术,让前端服务器以为有1TB。

导入自动精简配置技术就可解决这样的问题,由于前端的服务器一开始就以为可使用的是1TB容量,因此日后扩充也不受任何影响,让企业可根据需求再购买存储空间。有人便以航空公司的超额售票比喻Thin Provisioning技术,由于许多乘客常会有订位后不到的情况,所以航空公司通常会在每个航班卖出比实际还多的座位,以提高航班的搭乘率。

HDS技术总监张宪桐曾表示,由于企业都有预先购买容量的需求,因此存储空间平均实际使用率约为20%~30%,若采用自动精简配置技术,可让空间利用率提升至70%~80%。

0
相关文章