存储 频道

“鸳鸯锅”玩转大数据


作者:张桁 

 

近视、脱发

颈椎、腰椎问题

还有久坐不动

渐渐发福的身体...

 

上面这些症状

别说你没有

而且,干IT这行的更是重灾区

怎么办?

                                                           健身啊!

没准儿,还能像小张一样

不仅把身体练好了

还找到了对象!

IT人的第六感,

小张在健身房找到了同行

小张是某教育机构的一名程序媛,看着自己渐渐凸出的中段儿,越发浑实的四肢,隐隐显露的双下巴,在今年年初终于下狠心报了一个私教班。

健身半年以来,小张的工作状态愈发精进,频频受到领导表扬。这不,上周有消息说,公司又成功拿到了新一轮的融资。小张听到消息后,乐得只想蹦迪,感觉自己距车厘子自由,skII 自由已经不远了。

然而这个disco还没蹦完,领导就给她布置了个难题。因为公司扩张,对数据的存储和分析要求更高,普通的数据仓库已经无法满足需求,需要寻找一个新的解决方案

 作为IT人,小张明白,企业发展过程中会根据需求建设很多不同类型的信息系统,产生很多不同类型的数据。如何利用好数据采集技术、清洗技术、分析技术,发掘数据价值,是未来数字化道路的重中之重

但对于大数据,小张并没有过深入的了解,公司也没有相关的团队。怎么办?小张抓耳挠腮,这时候想起来,健身房里有一个叫小戴的,是个同行,也许他能知道。

 要说为什么小张知道小戴和自己是同行,没有别的,这就是IT人特有第六感。

 一次健身课后,小张主动约小戴一起吃火锅,两人一拍即合。于是,隔着火锅店里氤氲的雾气,愉快地聊了起来。

 

吃火锅,秒懂Hadoop

小戴夹起一块麻辣牛肉放进锅里,慢悠悠说道:“数据湖是大数据汇集、处理和应用的基础设施,只有将数据存储在数据湖中才能更加高效、安全、低成本地实现数据掘金

 就像我们面前这口火锅,各种蔬菜肉类都能放,捞出来就能吃,简单又美味。而小炒一锅只能烧一个菜,尽管精致,但要以吃货来论的话,效率可远远比不上火锅。”

 小张听了连连点头,抢话说:数据湖最早在2011年由CITOResearch网站的CTO和作家DanWoods提出。经过多年的发展,数据湖可以存储非结构化、半结构化、结构化等任意结构数据的并行系统;而且数据的存储、清洗、分析、展现、管理都在一个平台内完成,无需数据迁移。

小戴抬头看了下对面的女孩,心想:还算懂一点儿。 

小张嚼着嘴里的羊肉,又慢慢夹起来一块嫩嫩的鸭血,放进锅里。心想:终于把我提前半个小时记的内容背了下来,你倒是继续呀,我可只记住了这些。

小戴放下筷子,缓缓说道:“提起数据湖,总离不开Hadoop,今天,大部分大数据处理平台都采用Hadoop,不过…”


小张忍不住问道:“不过什么?”

“不过传统的Hadoop中每个节点既是计算节点又是存储节点,每个数据需要复制3份,防止单个节点故障造成的数据丢失。随着数据量的不断增加,传统Hadoop的计算和存储融合架构带来缺点开始显现。”

 小戴指了指眼前的火锅,继续道:“就像我们眼前的这口火锅,虽然食材各种都有,但它不灵活,因为锅底是固定的,吃多了总会腻。所以传统Hadoop也面临着扩展不灵活,数据保护成本过高,平台用途单一等问题。”

小张赶紧咽下嘴里的肉,严肃问道:“那你的意思是?”

 小戴笑了笑,只说:“快吃饭吧,我都饿了。”

小张此时要崩溃了,居然还卖起了关子!?

见小戴守口如瓶,小张也只能作罢,两个人愉快地吃完了火锅,各回各家了。

 回家的路上,小张的内心OS是:故意把说一半,难道是看本姑娘貌美如花,打算明天继续约我详谈?

第二天一早,小张就收到一个PDF文件,里面是昨天没讲完的下半部分...

 

计算存储分离,

鸳鸯锅”玩转大数据

针对传统Hadoop不足,戴尔易安信Isilon和ECS通过自带Hadoop属性,实现了计算和存储分离的架构。这种架构不仅能克服传统Hadoop架构的不足,在进行大数据处理时还无需进行长时间的数据导入工作,实现数据就地分析,从而大大提高数据分析效率

 就像火锅里的鸳鸯锅,存储是清汤锅底,计算就是麻辣锅底,两者不仅互不干扰,而且满足了各种食客的口腹之欲~


(不愧是钢铁直男,连鸳鸯锅的图都配了,看着小戴发来的PDF,小张心里想着...)

具体来说,和传统Hadoop架构相比,基于Isilon或ECS搭建Hadoop大数据分析平台具有以下优势:

功能点

传统Hadoop

基于Isilon/ECS的Hadoop

数据是否需要导入

分析时需要数据导入操作

直接在平台内分析,无需导入

数据类型

Files

Files

数据保护损失空间

200%

20%

NameNode 冗余

两个,有单点故障Active/Passive

无单点故障,每个节点都是Name Node

数据消重

提供面向对象访问

同时提供多协议访问

同时提供多Hadoop版本访问

文件安全控制

快照

Limited

文件合规性WORM (SEC 17a-4)

数据分层

可支持Hadoop版本数量

1

All

集中化Hadoop管理

有限

数据容灾

文件全拷贝

企业存储容灾功能

 看完PDF后,小张立刻打电话向小戴道谢,然后开始着手准备数据湖的建设方案。

 

等等,这恋爱的酸臭味...

周一,小张刚到办公室就接到了开会的通知,急急忙忙跑到会议室。抬头一看,刚喝了一口还没来的及咽下的咖啡差点喷出来,会议室大屏前站着的,是西装革履的小戴

 小张回过神来的时候,小戴刚好说到重点,Isilon的数据湖对他们公司到底有什么用处:


 集中存储所有非结构化数据。各种影像、视频、文档、基因数据都可以集中存储在Isilon上。Isilon由英特尔® 至强®处理器提供支持,该处理器采用软件定义的基础设施和敏捷云架构,为Isilon提供了卓越的性能和效率,可轻松集中存储所有的非结构化数据

  提供多种Hadoop版本支持。无需迁移数据,可以直接从大数据管理平台升级为大数据分析平台;

 

 消除大数据孤岛。在一个平台上可以同时运行多个大数据应用,无需为每个大数据应用建设配套专用的存储基础设施;传统上,当增加新的数字化应用或数字教学设备时,学校为每个应用程序或教学设备提供专用的存储基础设施。其结果是,各个应用系统都有独立的存储设备,形成物理上割裂的数据孤岛。这些数据孤岛只能被单独管理,从而使得基础设施变得复杂,运营和扩容更加昂贵;

  简化数据生命周期管理。戴尔易安信数据湖具有自动存储分层和云归档功能,热数据可以分布在高性能存储介质上,冷数据可根据策略自动迁移到低成本存储介质或者迁移到云中;随着教育相关数据量的急剧增加,数据湖提供一种简便、安全、易管理、易扩展的大数据存储架构,在数据生命周期内进行对海量数据进行高效地管理和利用;

 快速扩容,多维提升。采用Isilon建设的数据湖平台可在1分钟内完成在线扩容,并实现容量和性能的同步增长;

 多级容错,确保安全。Isilon具有多级容错机制,可以灵活设置多种数据保护策略,防止多块盘或多个节点同时损坏,带来的业务中断和数据丢失。

  降低存储成本。由于教育数据蕴含巨大的价值,因此大部分数据都需要长期保存,随着数据量的增加,数据长期保存的成本也越来越高,而数据湖能显著降低数据保存的总拥有成本;

  发掘数据价值。数据只要整合到一起才能被有效利用和发挥最大的威力。各种结构、各种应用的数据可以通过多种协议汇集到数据湖中,并可在不迁移数据的前提下,对湖中的数据进行大数据分析和利用;


 实现数据共享,数据汇总后,对数据分享十分有利。各个教育部门可以在数据湖中根据需要和对应的权限找到所需的数据;

 便于教育协作,当各个教育机构的数据通过数据湖汇总后,便于开展部门间、高校间、地区间的教育协作、科研协作。

 小戴刚说完,小张的领导就开口了,“挺不错的,这听起来能够满足我们公司的需求了。具体技术细节,你再和小张沟通沟通吧。”小张内心OS:他把我想跟您说的,都说完了啊,老板!


小张表面镇定,站起来跟小戴握手:戴先生,咱们再谈谈吧。

小戴:好嘞!我也有个...想跟你谈谈。唉,等会儿!小编我仿佛闻到了什么...



特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章