大数据之基于模型的复杂数据多维聚类析-存储专区

大数据之基于模型的复杂数据多维聚类析

作者：EMC中国研究院大数据实验室senior 编辑：曾智强 2012-02-13 09:49 IT168网站原创

　　多维聚类分析的工具和原理

多维聚类分析的工具和原理

　　贝叶斯网络是一种表示和处理随机变量之间复杂关系的工具。它是通过在随机变量之间加箭头而得到的有向无圈图。箭头表示直接概率依赖关系，具体依赖情况由条件概率分布所定量刻画。出于对计算复杂度的考虑，人们会对贝叶斯网络进行一些限制，在实际中使用一些特殊的网络结构。隐树模型(latent tree model)是一类特殊的贝叶斯网，也称为多层隐类模型(hierarchical latent class model), 是一种树状贝叶斯网，其中叶节点代表观察到的变量，也称为显变量，其它节点代表数据中没有观察到的变量，也称为隐变量。

　　图中给出了隐树模型的一个例子。其中，学生的“数学成绩”、“理综成绩”、“语文成绩”和“文综成绩”是显变量，而“智力”、“分析能力”和“语言能力”则是隐变量。从“分析能力”到“数学成绩”有一个箭头，表示“数学成绩”直接依赖“分析能力”，具体依赖情况由右图中的条件概率表所定量所刻画。表中的内容是说，分析能力低的学生在数学科有0.5的概率不及格、0.4的概率及格、0.1的概率得良，而得优的概率则是0; 等等。模型中的其它箭头代表其它变量之间直接依赖关系，每个箭头都有相应的条件概率分布。

　　在隐树模型中，一个隐变量对应一种数据聚类的方法。隐树模型允许模型中有多个隐变量，所以自然地可以多维同时聚类。在例子模型中，可以按照分析能力或者语言能力对学生聚类，也可以按照智力对学生聚类。在隐树模型中，聚类分析可以通过计算给定学生成绩的后验概率进行判断。所以，利用隐树模型进行多维聚类分析的技术重点就在如何通过观测数据学习一个最优的模型。抽象地说，就是找到能够最好地解释数据的一个生成隐树模型(Generative Latent tree model)。

第1页：多维聚类的概念第2页：多维聚类分析的工具和原理第3页：隐树模型的学习及多维聚类分析实例第4页：相关学术工作及总结

关注我们