存储 频道

戴尔科技与Apache Iceberg结合,推出对象数据湖解决方案

  文章转自:戴尔易安信解决方案订阅号

  从一幅幅“像素风”的NFT虚拟图画,拍卖出了千万美元天价,到“元宇宙”大热,竟能引发虚拟世界“抢房买地”热潮,这是否预示着一个巨大的范式转变?

  登顶财富500强

  一个标志性时刻即将来临

  近日,IT媒体《eWEEK》发表一篇文章认为,在2020年,财富500强上的前十大公司中,有八家与石油或能源相关。这一事实清楚地表明了石油在当今世界的主导地位,即在过去100年来,石油是推动全球经济增长的核心驱动力。

  然而这一情况即将发生转变。预计在2022年,按收入计算,亚马逊将登顶全球财富500强。这也许是一个标志性事件,意味着世界从以能源和石油为基础的经济转向数据驱动型经济。

  文章表示,到2030年,包括苹果、特斯拉、谷歌在内,全球财富十大公司中,有8家可能是数据驱动型公司。正如中东和苏伊士运河在石油时代具有重要战略地位,数据也将数字时代重要的“战略资源”。

  这也是如此之多的企业在数字化道路上狂飙突进的原因,掌握数据即是预见未来,才能在竞争中占领“制高点”。

  数据价值如何挖掘

  当然,光有数据还不够,正如石油本身并没有什么作用,而是需要提炼、加工,才能把石油变作燃料、化纤、塑料等等。数据本身也没有价值,只有经过收集、整理和分析,将数据转化为见解,才能真正驱动商业价值。

  在这里,“数据湖”三个字你一定不会陌生,这个最早在2010年由Pentaho创始人James Dixon提出,并这样解释这个概念“

  如果你将数据集市视为瓶装水的存储——经过清洗、包装和组织以方便消费,数据湖是一个处于更自然状态的大水体。来自源头的内容流补充到湖中,各类客户可以来湖中检测、探索以及获取样本。

  ”

  不幸的是,数据湖的发展并非一帆风顺,因为早期的概念里, 数据湖更多地是关于当企业在处理海量异构的数据时,如何在数据产生实际的应用价值之前,为海量数据构建一个易访问且成本低的存储方式。

  用户把数据扔进湖中,然后任其自生自灭,已经有多次公开的失败证明这种方法是错误的,一些早期采用者看到他们的数据湖迅速演变为管理不善或无人管理的数据沼泽。

  随着时间的推移,今天用于实施数据湖的技术和方法已经趋于成熟。数据湖作为大数据和人工智能技术基础架构发展的趋势,不仅提供了海量数据的存储能力,同时也为上层的数据处理提供了高效统一的数据管理引擎。

  数据湖的主要特点:

  ▶ 第一:存储原始数据,这些原始数据来源非常丰富;

  ▶ 第二:支持多种计算模型;

  ▶ 第三:有完善的数据管理能力,要能做到多种数据源接入,实现不同数据之间的连接,支持Schema管理和权限管理等;

  ▶ 第四:灵活的底层存储,一般用s3、hdfs这种分布式文件系统,采用特定的文件格式和缓存,满足对应场景的数据分析需求。

  技术上,数据湖不仅包括Hadoop,还包括其他传统和新兴大数据技术。下图所示的是典型数据湖结构:在一个数据湖解决方案中,用户通过诸如Apache Flink等平台,通过自带的数据定义或者第三方框架的数据定义,对存储在存储层的数据进行管理,包括查询和修改等。

  其中,Apache Iceberg则是一个新兴的数据定义框架,它适配了多个计算引擎,并具备了极强的扩展性,使得存储层可以对其进行适配。

  与Apache Iceberg结合

  戴尔推出对象数据湖解决方案

  Iceberg与Delta、Apache Hudi并称为当前主流的三大开源数据湖方案。其特点是表元数据非常简单,仅仅包括当前表的名称和版本信息。所有的Schema和Properties都由Iceberg自身进行管理。

  并且,Iceberg支持多种表的操作,包括从表中查询数据、向表中插入数据、更新表中的数据、删除指定行的数据和删除指定条件的数据等。

  Iceberg架构

  而为了全面拥抱数据湖,戴尔易安信对象存储ECS与Apache Iceberg结合,推出对象数据湖解决方案。该方案实现了table-format的数据访问接口,在数据加速、小文件、多地部署以及存储效率上具备优越的特性。

  关于ECS

  戴尔易安信ECS是完全软件定义的云存储平台,专为满足移动、云、大数据和社交网络应用程序需求而设计,支持在商用硬件上大规模存储、操作和分析非结构化数据。

  数据湖在本质上,是一种企业数据架构方法,物理实现上则是一个数据存储平台。ECS对象存储作为数据湖底层存储方案,用此方案可以将数据湖的元数据和数据都直接对接对象存储,充分利用对象存储提供的原生优势,并且无需部署额外的元数据管理服务,提供了更大的部署便利性。同时利用Iceberg良好的Table Format语义,用于帮助用户组织数据。

  根据测试验证,单节点S3写性能10KB大小的数据能达到1万以上TPS,100MB大小的数据能达到1GB以上带宽。单节点 S3读性能10KB大小的数据能达到3万以上TPS,100MB大小的数据能达到5GB以上带宽。成为企业构建统一数据湖存储,并在其上构建多种形式分析的理想方案。

  为了更好支持该解决方案的执行,还发布了相关白皮书,读者可复制下方链接至浏览器打开,下载白皮书,了解更多内容:

  https://www.delltechnologies.com/asset/zh-cn/products/storage/industry-market/apache-iceberg-dell-emc-ecs.pdf

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章