【IT168 技术】数据仓库 如何筑起信息管理大厦
两年前,当IBM等老牌数据库厂商提出将数据转化为有价值的信息并为企业随取随用时,国内很多用户都表达了疑问和顾虑,从数据库到数据仓库再到商业智能及数据分析的三层信息管理架构对于企业来说是不是还为时尚早?作为数据整合工具的数据仓库,在企业实现商业智能和数据分析的过程中是一种必需吗?两年后的今天我们发现,国内已经有很多用户通过数据仓库整合了不同业务系统中的数据,并为实现更高层面的商业智能和数据分析打下了坚实的基础。
2009年7月28日,IBM和SPSS共同宣布决定签署协议,IBM将以每股50美元的价格、总额约为12亿美元收购专注于预测分析和数据挖掘的商业智能公司SPSS。这不禁让人们联想起那场发生在2007年、至今仍被人津津乐道的商业智能收购大战—2007年 4月,甲骨文以 33亿美元收购了海波龙; 10月,SAP宣布以48 亿欧元(68 亿美元)收购了BO,由此业界知名的水晶报表也被收归旗下; 11月,IBM也以50亿美元收购了同是商业智能公司的Cognos。
发生这一系列收购的原因很简单,随着用户信息化应用的逐步深入以及数据信息的爆炸式增长,使得企业需要一整套的信息管理工具,将数据转化为有价值的信息并为企业所用。与此同时,数据库技术也已经逐步发展成为全面的信息管理—从数据库到数据仓库再到商业智能。IBM、微软、甲骨文等老牌数据库厂商也已经将帮助用户实现将业务数据转换成企业信息资产作为了自己的目标。
事实上,2007年11月,IBM在收购Cognos的同时,就提出了企业构建信息管理的三层架构: 底层是数据库及内容管理; 中间一层是数据仓库及信息集成; 上层是商业智能及数据分析。当时,IBM软件集团信息管理产品策略副总裁Inhi Cho Suh就强调,在中间一层,作为数据整合工具的数据仓库会在信息为企业所用的过程中扮演非常重要的角色。无独有偶,微软在帮助企业构建信息管理架构时,同样强调数据仓库是对数据进行分析并支撑企业决策的重要基础。
作为企业的重要战略资产,做到信息的随取随用的确是企业信息管理发展的终极目标。不过,在当时就提出这样的概念是不是还为时尚早?企业已经具备了实现这一目标或开始实施的条件了吗?两年前,无论是用户还是记者,对此都存在很大的疑问和顾虑。然而,在两年后的今天我们发现,国内已经有很多用户通过数据仓库整合了不同业务系统中的数据,为实现更高层面的商业智能和数据分析打下了坚实的基础。
决不是“大型数据库”
很多人误以为数据仓库就是一个更大规模的数据库,显然并不是这样,数据仓库是为了进一步挖掘数据资源并支持决策需要而产生的,数据仓库的建立并不是要取代原有的数据库,而是要建立在一个更全面、完善的数据应用基础,以用于支持决策分析。
对于用户来说,要想实现商业智能以及数据分析就要先建数据仓库吗?数据仓库与数据库的本质区别是什么?数据仓库与传统数据库在整个企业信息管理架构中的角色又有哪些不同?资深软件架构师王祥认为,数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,并支持决策需要而产生的,它决不是所谓的“大型数据库”。虽然数据仓库中所保存的数据来自于日常运行的、不同业务系统的数据库,但这些数据是经过了加工和重组的。因此,数据仓库中所存储的数据是源数据的增值和统一,而并不是简单的数据拷贝。
IBM软件集团中国区信息管理技术经理刘晶炜也强调,虽然数据仓库的最根本特点就是物理存放数据,而且这些数据并非是最新的、专有的,而是来源于数据库的,但数据仓库的建立并不是要取代原有的数据库,而是要建立一个更全面、完善的数据应用基础,以用于支持更高层面的决策分析。
通常,在企业内部都会存在很多分散系统或是异构系统,尤其是那些信息化程度较高的企业甚至已经有上百种业务系统在同时运行,要想对这些业务系统中的数据进行分析,直接从单一系统中抽取数据并做分析在技术实现上是完全没有问题的,而且成本还会更低。但是,这些存在于不同业务系统中的数据并不应该是孤立的,企业要想真正实现决策分析,就要对不同业务系统中的数据做关联分析,或者说是综合分析,这时,就需要将这些分散在不同系统中的数据进行关联。
通过ETL抽取工具将不同数据库中的数据抽取到数据仓库,将异构数据源有效集成,并进行重组,这种方法就很好地将分散数据关联在了一起。事实上,这也正是数据仓库的本质: 用于支持决策,面向分析型数据处理,显然这并不同于传统意义的数据库; 对多个异构数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
“在数据库中,有一张一张的表,这些表通过数据库关联在了一起,这样就能实现表与表之间的关联性分析。扩展到更大的氛围,要想把财务系统、OA系统、CRM系统等这些不同的业务系统真正关联进行,就一定要把这些系统中的数据抽取出来进行重组,然后再做分析。”北京大学人民医院信息中心主任刘帆表示。
据刘帆介绍,目前,人民医院已经构建了自己的数据仓库,并将三大数据主体中的数据都整合到了这一数据仓库中。据了解,人民医院主要有三大数据主体: 一是医院的所有后台业务系统,像其他企业一样,用ERP来管理物流、财务、人力资源成本以及应收应付总账等; 第二个数据主体就是临床HIS,也就是面向病人的收费,包括门诊、住院等; 三是临床信息,包括电子病历、检验数据、影像结果等。
以前,在人民医院这三大数据主体是完全分散的,并没能有效地整合在一起,针对某个病人就有两条主线: 一条是财务主线,也就是病人在医院里发生的所有费用; 还有一条主线是病人在医院里所有医疗和诊治的流程,比如病历、检验结果和影像结果等。这种孤立的方式显然无法实现以病人为中心的服务。“因此,我们要对这两条主线进行综合分析,这就一定要把三大数据主体串联在一起,只有这样才能更有效地分析财务与临床之间是不是相互影响。” 刘帆介绍说。
“之前,比如我们发现某个病人的花费比正常情况高了,就必须去另一个系统中查询具体的病症情况,结果发现他在院内发生了感染,造成后续的诊疗费用增高。” 刘帆介绍说,“在构建了数据仓库之后,我们现在通过商业智能工具对所有数据进行综合分析,而且还可以实现预警。比如,某种病毒突然高过一个预警值,就可以提示医生是不是某种药物出现了什么问题; 或者在某个科室中有三四病人同时受到了感染,医生就会考虑是不是院内的交叉感染。”