存储 频道

如何解决大规模非结构化数据的存储挑战

  【IT168 评论】存储非结构化数据是存储系统的主要挑战之一,大数据、人工智能、5G等技术的进步正在产生大量的必须进行管理、存储和分析的数据,这为存储系统带来了许多挑战。

  当然,处理非结构化数据并非是一个“世纪难题”,越来越多的提供商正在兴起,帮助企业满足处理大量数据的需求。存储技术也在不断发展,有了正确的存储系统和实践方法,就可以有效地处理非结构化数据。

  下面,我们将对关于存储非结构化数据的五个常见问题进行解析。从分解这些问题所带来的挑战,到哪种系统最适合存储它,希望本文能够对消除您对于存储非结构化数据的困惑,并帮助您的组织最大限度地利用这些数据。

  什么是非结构化数据?

  顾名思义,非结构化数据不遵循传统结构,比如金融系统和业务应用程序中的数据。虽然结构化数据适合于数据库等严格的格式,但非结构化数据更自由。非结构化数据包括图像、文本文件、传感器数据和电子邮件等等。

  这些文件的非结构化特性有其好处,比如允许分析团队在不首先标准化数据的情况下处理数据,这可能会带来更全面的分析。机器学习和人工智能的进步正在使非结构化数据的标记和分类变得更容易,这样信息就更容易访问,排序也不那么困难。

  存储非结构化数据涉及的最大问题是什么?

  “令人生畏”这个词,也许可以用来描述大量的非结构化数据。非结构化数据构成了今天产生的大部分数据,而且数量很多。非结构化数据存储的三个最大障碍是容量、多样性和价值。

  因为非结构化数据是由音频、视频、图片甚至社交媒体数据等文件组成的,所以很容易看出为什么容量是个挑战。幸运的是,在非结构化数据存储领域有很多供应商,包括Dell EMC、Pure Storage、Scality和Red Hat等等。涉及到大量的数据类型,如果处理不当,多样性可能会带来安全问题。由于存储了如此多的数据,数据的类型——包括个人身份信息、信用卡号码和社会安全号码——可能没有被考虑在内。

  类似地,当处理这么多数据时,数据的值可能会在混乱中丢失。在非结构化数据中可以找到价值,但是利用这些信息可能很困难。如NetApp这样的供应商提供的产品可以帮助您有效地对数据进行排序,并注意其中包含的内容。

  什么系统最适合存储非结构化数据?

  当涉及到非结构化数据存储时,NAS和对象存储都有各自的优点。NAS是一种传统的、可靠的存储系统,它的层次结构和有组织的格式使文件易于分类和排序。NAS速度快、用户友好且得到广泛支持。然而,NAS缺乏可伸缩性,至少与对象存储相比是这样。

  对象存储系统不使用严格的格式,而是使用元数据来描述数据,并根据属性(如名称、创建日期和位置)对数据进行排序。对象存储是高度可伸缩的,这使得增加容量变得很容易。然而,对象存储系统更可能缺乏性能。虽然看起来对象存储更有优势,但是这两种存储系统各有优缺点。

  闪存呢?

  如果您希望提高存储系统的性能,那么投资闪存来帮助处理非结构化数据可能是值得的。闪存成本继续下降,使其替代硬盘成为更多工作负载的可行选择。由于对象存储难以提高性能,使用混合或全闪存可以显著提高速度。

  随着性能的提高,基于闪存的SSD消耗更少的电量,占用更少的空间。然而,尽管价格在下降,闪存仍然是一个昂贵的选择。在将闪存添加到非结构化数据存储策略之前,请评估您的预算,并确保这是一项明智的投资。

  分层存储会有所帮助吗?

  分层存储并不是什么新鲜词,但是随着非结构化数据的兴起,对适当分层的需求得到了重视。使用自动存储分层,您可以为非结构化数据分配类别,这样就可以方便地存储某些频繁访问的数据,而不那么重要(但仍然是必要的)的数据则被搁置一边。在非结构化之下有非常多的数据类型,以这种方式对其进行优先级排序可以提高性能并管理存储成本。

  原文作者:Erin Sullivan

0
相关文章