在“新基建”的推动下,数字化转型与智能物联升级成为大势所趋,许多企业都加速向数字化创新工厂迈进。此趋势一方面助力万物互联的数字化建设,另一方面也带来了数据“井喷式”增长,其中大部分数据是非结构化数据。
如何高效处理非结构化数据成为当今用户的挑战与新痛点。戴尔科技集团及时响应用户需求,适时推出了PowerScale非结构化数据存储解决方案,可将结构化管理引入非结构化数据,最大化地释放“新基建”时代数据的作用与价值。
近日,笔者有幸采访到了戴尔科技集团大中华区非结构化数据存储事业部总经理刘志洪先生,和刘总围绕非结构化数据存储的概念、市场趋势及戴尔科技集团针对非结构化数据存储的一些举措,展开了深入探讨。
何谓“非结构化数据”?
据IDC预测,2018年到2025年之间,全球产生的数据量将会从33ZB增长到175ZB,复合增长率达到27%,其中超过80%的数据都会是非结构化数据。那么,什么是非结构化数据?非结构化数据和结构化数据相比有何不同?
据刘志洪表示:“数据就是客观世界的一个数学表达式。结构化数据是高度组织和整齐格式化的数据,计算机可以很轻松地搜索到它,容易被人们使用。而非结构化数据本质上是结构化数据之外的一切数据,它不符合任何预定义的模型,可能是文本的或非文本的,也可能是人为的或机器生成的,不容易被处理与存储。典型的非结构化数据包括文本文件、电子邮件、社交媒体数据、网站、移动数据、通讯、媒体数据等等。”
在谈到非结构化数据和结构化数据区别时,刘志洪总结道:除了以上提到的概念性区别之外,非结构化数据和结构化数据还存在以下几个区别,即非结构化数据的种类繁多、数据的来源广,产生的速度比结构化数据更快,数据处理和存储更困难。
当我们在刷短视频,网上聊天时,是否想到过这些行为的背后带来怎样的数据巨变?包括图像、视频、社交媒体内容在内的非结构化数据的增速惊人,远大于结构化数据。据Gartner预测,从2019年到2024年,非结构化数据的总量预计将增加两倍。那么,随着非结构化数据的扩张,客户对非结构化数据存储的需求也直线上升。如今,客户对于非结构化数据存储提出了哪些需求点呢?
笔者看来,在各行各业,用户都面临着非结构化数据量大、数据增快的难题。毫无疑问,企业需要一种简单、流畅、经济高效的方式来储存和使用非结构化数据。在这个问题上,刘总为我们总结了三大客户需求点:
首先,将结构化管理引入非结构化数据(从边缘到核心到云),能够消除其复杂性,并且可以从小规模应用扩展到很大规模应用。
第二,它能处理任意用户、任意位置的各种不可预测的工作负载。能同时支持边缘、核心和云的存储需求。
第三,能使查找和分析数据变得容易。组织需要找到所需的数据,无论它们位于何处。业务人员需要数据唾手可得;开发人员需要使用它进行编码;IT组织需要处理和管理数据。好的解决方案应该是智能的和赋能的。
笔者认为,随着近年来云和边缘计算等技术的兴起,越来越多的非结构化数据从传统数据中心转移到云和边缘计算等新场景,那么相关的解决方案只有兼顾到这一发展趋势,才能立于不败之地。
“新基建”为数字化转型带来新机遇
“新基建“是以5G、云计算、物联网、人工智能等新一代信息技术为依托,对新型基础设施的投入建设,及对传统基础设施进行数字化改造,推动面向数字经济的全面转型,为社会民生、工业、科技等方方面面注入全新的活力。
随着新型基础设施的全面铺开,数据爆发式增长、新一代信息技术的应用需求快速增长、更多基于云的新兴业态及场景纷纷涌现,这些趋势都大大加快了企业数字化转型的步伐。在“新基建”这个趋势下,对于非结构化存储带来了哪些需求和变化呢?
刘志洪表示,在“新基建“的推动下,AI,5G等新兴技术加速部署,人们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求。而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。
另一方面,新兴技术的快速发展也提高了行业对非结构化数据的重视程度。比如物联网、工业4.0、ADAS、自动驾驶、视频直播等领域的发展产生了更多的非结构化数据,而例如人工智能、机器学习、语义分析、图像识别等技术则需要大量的非结构化数据来开展工作。
笔者看来,疫情也加速了全业务数字化进程。在“新冠”病毒疫情影响下,以远程教育、远程办公、远程医疗等为代表的远程工作方式给产业带来巨大变革。因此,为应对数据的迅猛增长,用户对数据存储的要求也越来越严苛。不仅要满足在数据采集、存储、计算以及保护等数据生命周期内的需求,还要满足在数据中心、云以及边缘计算等不同场景下的需要。
在此背景下,戴尔科技集团借助灵活、易于管理的三类解决方案,从容应对非结构化数据的快速增长。高效整合各种规模的文件、对象和流数据存储工作负载,同时提高了其系统性能。
据刘志洪介绍,前不久,戴尔科技集团隆重推出了一款全新的存储系列产品--Dell EMC PowerScale非结构化数据存储。戴尔科技集团将卓越的横向扩展NAS解决方案和业界领先的服务器技术结合在一起。通过硬件加速创新技术获得软件定义的体系结构的灵活性。
在对象存储方面,ECS是来自Dell EMC的卓越对象存储平台。ECS可按软件定义的模式部署,或作为全包式一体机进行部署,具有非凡的可扩展性、可管理性、弹性和经济性,可满足现代企业的需求。如果说数据是现代企业的命脉,那么ECS就是心跳,为组织提供能够同时支持传统和现代工作负载的对象存储平台。
在流数据方面,Dell EMC流数据平台旨在为您的流数据创建一个强大处理和存储平台。所有流数据,无论来源或类型,都被放入到一个统一的引擎中,便于实施和管理,还能保障安全性和可扩展性,对应用程序的开发也有助益。通过自动分层存储和无限保留,可以使用相同的模式来访问存储在平台中的实时事件和历史事件,以便同时进行分析。
笔者看来,戴尔科技集团在非结构化数据领域已耕耘多年。PowerScale是建立在技术不断的传承和突破的基础上,其核心技术OneFS已经有将近20年的历史,尤其是对于那些用户数据量大,增长快,数据工作流复杂的情况,PowerScale的能力能够得到更大的发挥。
为行业赋能 PowerScale释放非结构化数据的潜力
据刘志洪介绍,自动驾驶、电子设计自动化、新媒体、医疗卫生、生命科学、制造业等多个行业,既存在对数据库等结构化数据存储与处理需求,同时在文档、图像、视频、语音等非结构化数据的处理和存储方面,亦有着强烈需要。在数字化转型加速过程中,那些数据类型复杂、有着强烈的弹性扩展需求、业务创新上存在多元化发展趋势的用户,极其需要构建起企业的数据湖,因此他们也成为了PowerScale面向的主要客户群体。
对非结构化数据的处理与存储需求上,戴尔科技集团帮助客户构建的数据湖实现了有效整合、高效存储和快速分析的功能,让众多用户可以利用数据湖获得更快的存储效率和更佳的数据分析结果,实现对数据的洞察,驱动用户加速实现数字化转型的宏伟蓝图。
在自动驾驶(ADAS)领域,L3级别数据量在百PB量级。这种海量非结构化数据如何“存储、管理、利用和归档备份”,是非常具有挑战性的。PowerScale通过把戴尔科技强大的横向扩展文件系统OneFS和卓越的服务器平台PowerEdge有机结合起来,在延续了Isilon高效地存储、管理、保护和分析非结构化数据的同时,又通过一系列的技术创新,为自动驾驶提供了更为强大的支持能力,为加速自动驾驶的落地打牢了基础。
数据显示,全球超过70%的ADAS供应商正在使用OneFS进行开发;排名前20位的汽车供应商中有70%以上使用由OneFS提供支持的Isilon/PowerScale存储系统;总容量已经超过了1EB。
在医疗卫生行业,面对今年突如其来的疫情,更进一步彰显了大数据平台在疫情防控中的重要性。而PowerScale搭建医疗数据湖:“伸缩自如,简捷如一”,单一文件系统可以从7TB线性扩展到66PB,确保如电子病历、医疗影像、远程诊疗等系统的数据共享和及时访问。同时,PowerScale还作为基因测序平台的标准存储解决方案,为药物研发、精准医疗提供支持,为医生和病人,乃至全人类争得宝贵的时间。
在奋起直追的电子设计自动化领域,选择一个成熟、可靠的存储平台,不仅能够保证整个流程的可靠运行,还因为PowerScale支持的多存储协议,可以有效缩短整个生产周期,确保在一日千里的行业领域中保持领先。
在动画&特效制作领域,2020年初,全美电视艺术与科学研究院授予了Dell EMC Isilon“技术与工程艾美奖”,以表彰其对 HSM(分级存储管理)系统的早期开发。这是戴尔科技集团首次获得这一享有盛誉的奖项。
随着新媒体的不断涌现,在这个连接用户的新时代, 播出、内容交付提供商需要与用户建立更迅速、更直接的关系。同时,快速的产品制作、稳定的播出系统也都是PowerScale的强项。
笔者认为,每一次技术变革与行业进步,都离不开善于创新、善于赋能的企业。无论是数字产业化,还是产业数字化,戴尔科技集团强调产业赋能的同时,更为强调世界经济数字化转型的大趋势。未来,戴尔科技集团还将会非常重视非结构化数据存储市场,也会加大对非结构化数据存储的投入,为客户带来更完善的解决方案。