【IT168 存储】一个追求卓越品质的云存储解决方案提供商或服务商在解决云存储问题时不可避免要处理一些云计算任务。本文尝试揭示一个事实:一个志向远大的云存储商为提供优质云存储服务,它所要解决的云计算问题一般具有很强的挑战性,属于云计算问题中比较难解决的一类。为此我们可以把一个计算问题,不论是“在云上”计算的还是在“云下”本地计算的,抽象成为一个术语叫做“命令行”的如下表达式:
命令 输入 输出;
其中“命令”表示计算任务的执行代码,“输入”表示计算任务所要处理的输入数据,而“输出”表示计算任务完成后的输出数据结果。举一具体命令行的例子:
(1) Word
InFile OutFile; (用Office
Word对文件InFile作文档处理后将结果存储为文件OutFile)
对于一个用户,如果计算是“在云上”发生的,那么命令行“命令输入输出”是在用户所租用的数据中心服务器上执行的,用户的输入输出数据也都存储在数据中心。而在“云下”的情形,用户则要用自己拥有的计算资源来执行命令行并且还要自己存储与管理数据。为了本文的目的,以下让我们只考虑“在云上”的情形,并且用“云命令行”来称呼一条在云上执行的命令行。于是云命令行(1)描述了一个典型的云计算任务,比如Google
Docs就提供这样的在线办公软件服务。一个优质的云存储方案/服务提供商不可避免要解决一些云计算任务。我们也可以用云命令行来为这样的云存储商抽象描述出几例它必须要执行的云计算任务,比如:
(2) DeDup
ip1:v1 ip2:v2;
(用重复数据删除处理方案DeDup对IP地址为ip1数据中心服务器逻辑磁盘卷v1做重复数据删除,将结果存储到IP地址为ip2数据中心服务器逻辑磁盘卷v2上。这条云命令行描述了一个优质云存储服务商为降低服务成本而必须要做的一项云计算任务。)
(3) LoadBalance
ip-1 ip-2 …
ip-n; (在IP地址为ip-1, ip-2, …,
ip-n的服务器集群中做存储附载均衡,使每个服务器均衡发挥处理与存储数据的能力,以优化服务质量。)
(4) RAIC
V ip-1 ip-2
… ip-n; (将磁盘卷V冗余分布到IP地址为ip-1, ip-2, …,
ip-n的“低成本冗余云存储商阵列”中去,此处RAIC = Redundant Array of Inexpensive Cloud
storage service
providers。这些低成本云存储商因为收费低廉只能提供一些低端的,比如可能会掉线的,云存储服务,而不追求为了提高服务品质,比如提供不会掉线的云存储服务,所必须解决的云计算任务。RAIC的出处与性质请参见我以前发的一篇博客文章“云存储商冗余阵列”
http://blog.csdn.net/wenbomao/archive/2010/01/12/5182748.aspx
)
以上云命令行的例子(2),(3),(4)都还可以带有云数据安全保护,比如对(2)加上数据安全保护,我们可以用下面类似Unix
Pipe(管道)命令抽象出一个组合计算任务:先对加密数据做解密,再进行重复数据删除,最后将处理结果做加密存储。下面是经过如此管道组合后得到的云命令行例子:
(5) Decrypt
–passphrase ip1:c1
| DeDup |
Encrypt –passphrase ip2:c2;
(这条组合云命令行稍许有点技术细节,一般读者略过这里的解释无妨。其中passphrase是解密命令Decrypt与加密命令Encrypt所用的参数,它指向一个密钥让程序Decrypt(Encrypt)对输入(出)数据做解密(加密)处理;符号“|”叫做“管道”,用来通知操作系统顺序操作Decrypt;DeDup;Encrypt)。
我们还可以同理对(2)和(4)做管道组和,将重复数据删除分布到低成本冗余云存储商阵列中去,得到的结果是既可靠又低成本。还可以再加上(5),对低成本可靠的云存储服务做数据作安全保护,以防止低成本云存储商偷窃用户数据。我们还可以考虑对云上数据作查询检索的任务,而且还可以基于安全策略的查询检索,等等,不在此一一列举。
为什么我们说一个志向远大的,着眼于提供优质云存储服务的云存储商所要解决的云计算任务会比一般云计算任务,比如云命令行(1)那样的,更具有挑战性呢?我们不妨作如下观察:云命令行(1)一类的云计算任务通常为个体用户所使用,为处理某个具体任务,相对比较简单。所以因服务质量问题而对用户造成的损害一般会比较有限,防范手段也相对容易实现。比如我们可以设想云命令行(1)在执行时服务器宕机造成用户数据丢失。一个简单的防范手段可以是让云上的Word作频繁的AutoSave。一个比较大的计算任务也可以用比较频繁的CheckPoint将计算中间状态保存起来,以减小由于宕机而造成的损失。而云计算命令行(2)至(5)一类,以及对它们加以稍有点想象力组合而得的云计算任务不仅可以针对个体用户提供高端云存储服务,更加可能的情形是:这一类计算任务是我们通常称之为“信息生命周期管理”(InformationLifecycle Management,ILM)的任务,主要是高端云存储服务商所提供的存储服务内容,其所面对的标准服务对象是企业或组织用户。对这样的用户一般都要提供具备海量数据处理能力的ILM云存储服务,其相应速度,可靠度,安全保护,版本管理,查询搜索质量,等等,都必须是专业级的。对于这样的ILM任务,我们不难得出结论:云存储比云计算更具挑战性,云计算只是云存储的一个子问题。