本文根据《数据仓库建模的完全指南》(第二版)摘录:
1:数据仓库必须由业务用户的需求来驱动,并因此从一个简单的维度视角来建立于展示数据仓库这样的概念;
2:对数据仓库,业务才是第一位的;
3:操作性系统:存入数据;数据仓库:取出数据;
4:数据仓库在需求、客户、体系结构和运行机制与操作性系统有很大不同;
5:客户的烦恼:不能访问数据;切割数据;快速访问;不同系统间不同编码;
6:数据仓库:易阅读的、并且精心组织,可信而安全;
7:EAI:企业应用一体化,所有系统按一定的视角来统一设计;
8:数据仓库的4个环节:操作源系统、数据聚集、数据展示和数据的存取;
9:ETL:数据析取转换和加载;转换如拼写错误、丢失补充、标准化格式、多数据源组合、重复数据消除、仓库
关键字的分配;
10:维度模型是为数据仓库用户提交数据最可行的技术手段;
11:维度建模和3NF范式建模的不同;
12:数据仓库维度建模要求:必须包含原子数据、一致性维度和事实;符合数据仓库总线结构;
13:总线结构是构造分布式数据仓库系统的秘诀;
14:元数据;
15:ODS:操作数据的存储,一般没有必要;
16:可加性、半加性和非加性事实;
17:事实表倾向于更多的行和更少的列,维表则相反;
18:事实表分类:周期、事务和累积快照;
19:数据仓库:以数据库为基础,在需求、客户、体系结构和运作方式等方面都与数据库应用有很大的不同;
20:数据仓库的两种增值操作:OLAP和DM;
21:设计维度模型的四步处理过程:业务、数据粒度、维度和事实;
22:日期维度;
23:退化维度;
24:雪花处理,一般不建议,除非支架如日期支架等;
25:代理关键字:
26:事实表中用ROWID的意义不大;
27:维表,少行多列,少于100万,50--100个属性不少见,并且使用单一的关键字;
28:数据仓库的能力直接与维度属性的质量和深度成正比;
29:维度属性应该是真正的文字而不是代码;
30:维度建模的好处:简明性、对称性和性能上的好处;
31:维度模型和数据中心的要求:符合数据仓库总线结构;
32:建模中避免的疏忽:大的规划,而应该小量迭代开发;注意技术而忽视用户,注意力要放在前台的查询、
性能和容易使用上;
33:数据仓库的成功直接系于用户的接受程度;
34:如果用户不将数据仓库作为提高决策制定水平的基础环节,则无意义;
35:维度建模不仅适合于总结性的数据,而且也适合于细节性的数据;
36:计算量应该存储,不要太计较空间;而百分比和比率应该存储分子和分母;
37:开发人员要估计最大事实表的行数;
38:日期维度考虑:年、季度、月、日、半年、旬、周、财政年。。。节假日、月周末、交易日等;以及重大
事件;
39:日期关键字应该是整型,不要使用自然关键字;
40:因果维度和偶然维度;
41:退化维度:所形成的维度为空,一般是事实表的自然关键字;
42:必须避免在事实表中出现空关键字;
43:数据仓库团队应该有意识地打破一些传统的建模规则,因为这是将注意力集中到通过容易使用与良好的性能
来发挥业务价值而不是放到事务处理的效率上的需要;
44:维度的snowflaking导致过多的维度;为了节省磁盘空间而投入精力去规范化维度表,只不过是浪费时间;
45:允许雪花,如支架处理;
46:过多的维度,会导致事实表消耗过大的磁盘空间;
47:1-15个维,不多于25个维;
48:体系层次相关的属性,应该成为同一维度的组成部分;
49:代理关键字:仅用于维度表和事实表的连接;不要含有其它意义;
50:使用代理关键字的好处:对操作性变化的缓冲;性能上的优势;支持处理维度属性的修改;