存储 频道

常规手段有心无力 管理大数据需新思路

  【IT168 评论】想象一下,你拥有一个存储出租仓库,并雇人为你管理仓库。管理人员开始创建了一份电子表格,列明了所有租户。几个月过去了,一些租户需要更多空间,另一些租户则需要更少空间。租户搬进搬出。

  又过了几个月,这个电子表格已经没有更新,你不知道找谁收租或者谁租了哪个空间。你的租户开始利用这个情况,由于你的收租过程并不准确,他们就可以趁机在不交额外费用的情况下使用更多空间。再进一步想象,你在世界各地都有仓库…

  对于非结构化数据,企业都面临相同的问题。在企业内,人们进来或离开,新部门需要访问数据,而一些部门已经不再需要访问权。这种“数据管理”大部分都是以电子表格来管理的,导致了大量时间密集型书面工作,如果信息不更新的话,电子表格就没用了。

  更大的问题是扣款模式并不是不存在或者没有部署,而是没有强制执行。由于用户并不需要对他们在网络附加存储(NAS)控制器上使用的空间负责,于是他们将所有信息都存储在这些控制器上,而不知道这对企业成本造成的影响。当你考虑一些这些数据将被复制以用于灾难恢复(DR)、快照和备份到磁带(虚拟的、物理的,或者两者皆有)等目的时,这种成本将难以估计。

  有几个问题需要考虑。首先,大多数NAS厂商并不能处理大量企业级非结构化数据。两个最大NAS厂商(NetApp和EMC)都没有解决全球命名空间问题或者让其硬件根据需要向外扩展,因为基础设施由数据孤岛组成,关联一个数据孤岛和另一个孤岛并不存在简单的方法。在大多数情况下,NAS设备将数据作为工作组来处理,而不是全球客户的单一大型scale-out(向外扩展)NAS解决方案。

  例如,微软使用Active Directory(AD)解决了单一大型scale-out目录服务。AD是单一数据库,对于跨国性企业,AD物理分布在各地办事处(如纽约、伦敦、新加坡、东京和法兰克福等),AD主要处理复制。当你查询AD时,你可以查找任何对象信息。如果用户在纽约,他可以查询在东京的对象。但NAS并不能做到这一点。

  因此,非结构化数据只能从工作组级或者信息孤岛来看待。要查询NAS设备上的数据,你需要登录到一台设备,然后登录到另一台来查询另一台NAS设备上的信息。NAS并不能像用户使用AD那样在整个企业内查询信息或者运行报告。

  其次,由于基于网络文件共享(NFS)和CIFS的安全性从本质上来看非常不同,真正多协议访问可能造成失去安全控制或者不兼容问题。因为CIFS是一项微软的技术,用户账户信息存储在AD中。使用Unix为基础的NFS的公司使用NIS作为他们NFS的主要账户存储库。

  这两个独立的账户存储库让企业很难从单个应用程序来管理全球数据。如果没有坚实的扣款机制(大部分企业没有执行),非结构化数据的使用将无法问责。除非部署物理限制,再加上一个良好的扣款程序,用户才会保存所有他们在NAS存储上写入和读取的信息,非常像一个乱七八糟的衣柜。

  非结构化数据的管理对于企业来说是非常艰巨的任务,而日常管理员需要对非结构化数据有某种可视性。这个意味着需要一个解决方案,允许管理员从全球整体来查看他们的非结构化数据。

  有一次,作为美国最大银行之一的全球NAS实验室的管理人员,我需要将一个NAS设备返还给厂商。首先,我需要安排设备清理。我花了很长时间才弄清楚哪些人使用过这个NAS设备,最后,只能靠猜测。关于非结构数据的基本问题都是很难回答的。谁访问过NAS设备?这方面部署了怎样的安全策略?如果我想要分层存储,哪些政策最有意义?

  如果应用程序可以将所有这些信息生成到一份报告中,那么中层管理人员就可以解释为什么分层能够为企业节省成本,以及哪些分层政策最有意义。此外,IT安全人员将能够查看和加强安全部署方法来解决数据安全方面的问题。操作人员可以监控延迟情况,快速找出是谁造成NAS设备的延迟性。当试图从快照恢复虚拟机时,如果一个应用程序可以作为全球目录,并追踪文件存储位置,以及提供日期和时间戳,基于磁盘备份的文件恢复将更快且更简单。

  简而言之,目前的非结构化数据的管理并不存在或者很糟糕。市场迫切地需要一个应用程序能够提供对非结构化数据的真正可视性,这些非结构化数据正呈直线上升,变得越来越难以管理。

0
相关文章