存储 频道

大数据回报需要明确的问题

          【IT168 资讯】老实说,大数据是一桩大生意, Wikibon预计其将以每年31%的速度增长,并在2017年达到50亿美元的销售额。虽然迄今为止,大量砸入大数据的投资都犹如石沉大海。今年早些时候,InfoChimps的调研结果显示55%的大数据项目都遭受失败。

  大数据思辨( Think Big Analytics)公司的CEO Bodkin指出,大部分大数据项目的失败都可以归结到几点原因:无明确的商业目标,未结合实际业务需求、不足的预算、缺少规划以及未指定项目的实施范围。(数据分析技术的缺乏只会让大数据在未来五年内的前景更不乐观。)就算是那些现在成功的大数据项目,也很可能因未能给业务运营带来实时效益,而不被IT部门之外的人理解,最终导致失败。

  大数据项目的花费来源于销售业绩,但它创造的价值存在于物流和金融。据塔塔咨询服务的调研报告《最新的大数据回报形式》显示,全球各地的企业主要把大数据的投资放在销售、市场和用户服务上。但其实说为的大数据金矿,是分布在企业业务的各个角落里的。例如,最有潜力的利益回报就包括发掘客户需求和客户价值,产品质量、活动效果和存货追踪。

  如何用大数据来减少客户流失

  Bodkin着重提到了两点。首先是关于互联网的,在这里我们可以从智能终端和联网设备上搜集到必须的数据信息,来促进销售、提供项目管理决策、提高生产率、减少浪费和驱动通用公司谈到的“工业互联网”。

  其次是医疗保健,也就是常常被人谈论到的健康产业的“口袋发明”,基因研究和穿戴设备技术都将在医患关系中起到核心的改变。

  “可穿戴设备其实已经有很多,但最大的挑战还是在于将分散的设备中的数据集成起来,构建出一个综合的图表,来显示病人的健康状况。”Bodkin 如是说。但有这些还远远不够,下一步是再将个人的心率、饮食习惯、运动、睡眠习惯数据整合进来,描绘出一幅完整的健康图表。

  “医疗保健科技的难点在于其信息互通和集成,但精确的个人健康状况报告和建议所带来的价值将远远超过与一年一度的体检。这将是大数据价值的重要体现。”Bodkin说道。犯规来,这也将大大提升人们参与到数据收集的工作中去。

  大数据的下一步该怎么走?

  Bodkin告诉我们,大数据项目的下一步应该不仅仅是将数据搜集起来,而是要迅速将其转化为预测性分析、自动商务决策并把它当成一种资本投入到商业中。

  同时,在不同的渠道提供相同的消费体验,也更加有利于客户关系的维护。他们会真心感谢公司能够360度地照顾到他们的感受,无论是在网上、手机上或者实体的活动中。

  随着大数据技术在接下来的五年里日趋成熟,为了让数据分析能更上一层楼,我们需要加速集成大数据的”单点应用“。他们需要进行比现在更复杂得多的数学运算,Bodkin说道。可喜的是,这种技术讲越来越普及,就像基本的计算机操作一样。

  浪擎科技作为国内最大的备份容灾软件厂商,始终致力于各种数据实时备份、数据库实时复制技术研发的厂商,具备完整的技术架构和多系列的产品。既有高端的基于应用层的、备端在线的镜像系统,以及基于私有云架构的大型灾备中心方案,又有基于逻辑卷层的实时数据复制产品,还有容错CDP级的产品线。

  下面就浪擎科技的各种核心技术在大数据方面的应用来展开说明。

  一、 浪擎现有的、核心的数据复制、传输技术

  浪擎科技基于已有的结构化数据和非结构化数据的复制传输技术来探讨大数据传输的实现按。浪擎现有的核心关键技术:

  1)分布式并行传输,后续“静态的非结构化数据的复制、移动”说明。

  并行传输的工作原理其实是先分后合的数据处理方式。分解:把海量数据分割成了若干部分,分给多台处理器并行传输;合并:把各台处理器传输后的结果进行汇总操作以得到最终结果。

  2)重复数据删除,后续“静态的非结构化数据的复制、移动”说明)。

  浪擎科技的基于文件块的增量传输技术可以在源端删除90% 的冗余备份和归档数据,这种方式将目标端存储中的重复数据删除,将网络中发送的数据量锐减90%,藉此显著加快将大量备份或归档数据迁移的速度。

  3)结构化数据的实时感知与捕捉,后续“动态的结构化数据的实时复制、移动”章节说明。

  4)活动的、结构化数据的追逐式复制,后续“动态的结构化数据的实时复制、移动”章节说明。

  通过使用分布式并行传输控制、镜像复制技术、重复数据删除等技术,可以显著缩短了迁移大量数据所需的时间。以下章节详细说明非结构化数据和结构化数据复制、移动。

  二、 静态的非结构化数据的复制、移动

  非结构化数据一般指文件类型数据,如音视频文件、office文件、网页文件、CAD制图文件、科研数据等等,以及现在互联网各种应用产生的数据大多以文件形态来存储。

  浪擎科技的文件传输通信协议(OFTP),是浪擎科技为满足大规模的数据传输历经四年自主研发的一种高效传输协议,简称OFTP,可应用在长距离、低可靠性的窄带网络上进行数据传输复制。

  1. 浪擎的文件传输通信协议(OFTBP)

  协议具备以下技术特性:

  √ 并行优化增量传输

  √ 数据压缩

  √ 传输一致性校验

  √ 网络断开自动重连

  √ 数据包丢失自动重排重发等

  目前,一般的数据传输协议,如传统的 FTP协议或RCP协议,在进行网络传输的过程中存在着很多弊端。如传输的数据量、性能、准确性等都不能达到TB设置PB级要求。与这些传统的传输协议相比较,在安全性、可靠性、承载能力、扩展性上具有明显的优势。

  OFTBP协议包含消息头和消息主体两个部分。消息头对消息主体进行描述,包括文件名称、大小、文件属性集合、传输算法等字段;消息主体存放需要传输的数据包。为减少不必要的传输量,在编码时可对数据包进行压缩;为确保在传输过程中的一致性和准确性,必需对数据包进行传输一致性校验。校验码是根据传输数据按特定摘要算法生成,附在数据包后。镜像服务器收到数据包再按照摘要算法生成一个校验码,与传送来的校验码进行比较,从而确定数据的一致性和准确性。如果不匹配,则要求重传。

  OFTBP协议与算法必需满足这样的需求:

  √ 网络传输缓冲区自适应管理能力,根据文件大小自动调节网络传输窗口大小。

  √ 多连接并行传输,可支持多个连接传输。

  √ 增量传输,两端相同的文件不需要传输,仅传输不同文件块。

  √ 网络连接重连技术,当网络连接失败时重新连接。

  √ 智能分块技术,使得传输流量均分到每个连接上。

  √ 文件分块传输(部分文件传输),可支持并行传输和断点续传。

  √ 文件滑动摘要计算技术,使计算负荷和文件I/O符合降到最低。

  √ 文件完整性校验,保证传输完成后两端文件一致。

  2. 并行优化增量传输技术(POIT)

  文件传输采用复杂的并行优化增量传输算法实现大规模的文件系统复制。该算法对传输任务智能分解成更小的任务,然后并行控制传输,最大限度的利用可利用的网络带宽;其次,对于已经镜像过的文件在以后镜像时,将采用优化增量传输,仅复制不同的数据块,尽量降低网络流量,极大的提升传输速度。

  增量传输算法采用基于文件块的比较,即在滑动窗口控制下对文件分块和对块作摘要运算,然后逐块比较摘要,只传输不同文件块。

大数据回报需要明确的问题

  增量传输示意图

  增量传输算法主要的过程如下:

  分块checksum

  将目标端的数据按照定量分块,比如512字节一块。并且对每一块分别进行checksum。然后将所有checksum传回到源端。

  哈希checksum查找比对

  源端将目标端传输过来的checksum放入哈希 Table。并且同样开始进行分块checksum,在每一块checksum结果产生后在哈希Table中查找。如果找到对应记录,那么表明这一块数据两边完全一致,无需传输。反之表明这一块数据中有不相同的数据,需要传输。

  3. 文件变化实时感知检测(FRP)

  镜像代理内嵌各种操作系统的虚拟文件系统驱动程序。在Winows操作系统上根据WDM驱动程序模型实现文件系统过滤驱动程序;在Linux、AIX、Solaris等操作系统上通过内核模块实现虚拟文件系统过滤驱动程序。在运行时,镜像代理向操作系统注册并请求加载该驱动程序。在载入操作系统后,该驱动程序实时捕获文件系统的操作动作,从而使得文件镜像可以实时感知文件的变化,而无需极耗资源的轮询文件系统来获取变化。

  4. 支持功能

  并行传输

  对于文件或目录均可实现传输任务智能分解,然后并行控制传输。

  增量传输

  采用基于文件块的优化增量传输技术,仅传输和目标文件不同的文件块,尽量减少在网络上的传输流量。

  重复数据删除

  在数据传输之前或之后对数据进行分析,将传输或存储一份相同的数据。减少数据传输量以及数据存储占用量。

  断点续传

  支持断点续传功能,当传输某文件失败,下一次重新传输时,在优化增量传输控制下,将从上一次的传输点开始传输后续的文件块。

  文件变化实时感知检测

  镜像代理内嵌各种文件系统的驱动程序。在运行时,该驱动程序实时捕获文件系统的操作动作,从而使得文件备份可以实时感知文件的变化,而无需极耗资源的轮询文件系统来获取变化。

  可选定文件或目录来复制或移动

  系统支持仅备份指定的文件或目录;也可采用修改时间、大小、文件或目录名组成正则表达式进行过滤。并可过滤指定的文件动作,例如过滤删除动作,不删除目标文件或目录。

  支持各种文件格式

  支持Office文档格式、HTML、TXT、PDF;

  支持音视频文件格式;

  支持其他二进制文件格式;

  支持大文件备份

  系统采用64位表达文件长度尺寸,支持超过2GB的大文件传输备份,例如500GB大小的文件。

  支持异构操作系统平台之间的传输备份

  系统支持在不同操作系统之间的传输备份和存储。例如,将Windows的Office文档传输备份至AIX;或将Solaris的二进制数据文件传输备份至AIX。

  数据传输一致性和准确性校验

  确保文件在传输后与源端的文件一致相同。

  5. 应用场合

  √ 拥有TB级别以上数据的医疗系统(如PACS)

  √ 档案文档中心

  √ 互联网的非结构化数据(NOSQL)移动

  三、 动态的结构化数据(数据库)的实时复制、移动

  动态变化的数据通常指在线业务系统的存储数据,例如,证券交易的数据、社交网络的聊天数据、电信的计费数据、医疗的HIS数据、电子商务的交易数据等等。这些业务系统都非常关键,支撑国民经济的正常运行,因此要保障其自身的安全与稳定。但是,这些业务系统的要求非常苛刻,必需要有适合这些用户群体的技术才能满足其需求。

  浪擎科技的双活数据复制技术正是满足这样的需求。一般而言,这些关键业务系统都把数据放到后台的关系数据库中,因此可以称这些数据为结构化数据。浪擎科技的双活数据复制技术其实质就是动态的、实时的从一个关系数据库复制或迁移到另外一个关系数据库。当然,目标关系数据库可以放置到异地。

  关系数据库的数据复制、移动必需满足这样的要求:

  √ 适应业务系统7×24小时不间断运行的特点;

  √ 必须保证源端数据库与目标端数据库的一致性和完整性;

  √ 无需停止业务、无需申请停机时间;

  √ 数据的丢失控制在60秒以内;

  √ 必须支持两端硬件环境的异构,目标端的服务器选型、磁盘阵列选型不受现有源端的限制;

  √ 可实现分布复制,即多对一的复制、移动;

  数据库复制采用ACA(应用捕获与分析)引擎,实时捕获源端生产系统的生产数据,然后解析成数据库记录,然后再通过目标端存储进程保存到目标数据库中,且保持目标数据库实例的可用性。

  6. 浪擎科技的核心技术——ACA引擎工作原理

  1)复制引擎架构

  数据库复制引擎包括代理、复制服务器软件两大部件。代理包含操作系统驱动程序、事务日志实时捕获器、事务日志分析器、传输控制器和任务队列等;复制服务器包含接收队列、SQL应用机构等。

  2)复制流程

  事务日志实时捕获器通过操作系统内核驱动驱动程序实时监控源数据库事务日志文件和捕获其变化数据;事务日志分析器通过数据字典将日志数据解析还原成数据库记录,并过滤不需要复制的表或其他数据库对象;传输控制器从任务队列中取出记录数据传输至复制服务器。复制服务器接收队列将记录数据保存至事务队列和Snapshot文件中;SQL应用机构扫描事务队列,将提交事务应用到目标实例。如下图所示。

大数据回报需要明确的问题

   数据库复制原理示意图

  3)传输控制

  传输控制器记录当前传输成功的事务序列号。当连接中断等因素导致传输失败,传输控制则停止传输工作,尝试连接直到连接成功,然后从上一次传输成功点接着传输。

  4)全量复制

  全量同步采用全量复制技术(参见后续说明)实现,将源数据库备份出来,还原至目标数据库,实现源和目标数据库基准一致。

  5)目标数据库状态

  目标数据库处于运行状态,可读可查询,运行的目标系统保证了系统的一致性。

  7. 浪擎科技的核心技术——追逐式全量复制

  在实时增量复制之前,需要保障主、备数据库之间的数据同步,才能进行后续实时增量复制。

  追逐式复制定义:

  追逐式复制:在完全无需停止业务数据库的条件下,极快的将源数据库全量复制或迁移到目标容灾服务器。追逐式复制技术把源数据库所有事务,包括缓存数据全部复制到目标端,并且对全量复制过程中新增的数据做增量复制,以达到源与目标服务器数据完全一致的容灾要求。

  数据库追逐式复制有以下技术特性:

  1)复制速度快 追逐式复制相当于两个数据库之间直接传输数据,经测试追逐式复制速度比使用DTS导入/导出或快照发布的复制技术至少快20倍,可有效的提高复制效率,节省系统资源。

  2)源数据库无需停顿,在线式直接复制 比传统的数据库复制技术更据优势,传统的数据库复制方式都需要先停止数据库再进行复制操作,当进行全量复制操作时,业务系统要停止工作,可能会对用户使用造成很大麻烦,而追逐式复制就避免了这种情况,它在做全量复制时数据库无需停止,有效保证业务系统持续运行,不会对用户造成损失。

  3)保证源服务器数据与目标服务器数据完全一致 全量复制技术结合增量复制技术可实现在做全量复制的同时也可把新增的数据内容复制到目标端,确保源服务器和目标服务器数据完全一致。

  追逐式复制技术原理:

  1) 在源数据库端全量备份数据库

  2)将全量备份数据传输至目标服务器

  3)还原全量备份至目标数据库

  4)找出全量备份中的最大日志序列号

  5)以该日志序列号开始后续增量复制

  8. 技术特性

大数据回报需要明确的问题

  9. 主要实现功能

  实时单向数据复制,单向复制以主服务器系统作为复制的数据源,复制到备用数据库用于查询。

  定时全量复制计划,系统还提供便捷的定时全量复制计划。复制计划作业可配置信息字段:开始时间、结束时间和日期以及在这段时间之内的复制频率、需要复制数据库。

  数据一致性校验,系统提供对复制的表进行数据一致性校验,并修改目标表的数据。这种补偿性能力解决当复制系统停止时,源和目标产生的不一致性。

  10.应用场合

  对业务系统能够容忍的停机时间极少的单位(比如金融、电信、医疗、电子商务、交通),要求很小的数据同步延时时间。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章