存储 频道

人人网:基于Hadoop的SNS统计和聚类推荐

  【IT168 技术】12月2日-3日,以主题为“海量数据掘宝”的Hadoop中国2011云计算大会在北京会议中心召开。本次大会邀请了Apache软件基金会主席 Doug Cutting先生、威斯康星大学教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘宝、华为、支付宝、奇虎、新浪、中兴、曙光、腾讯、人人网、清华大学、英特尔以及百度等学术机构、国际知名公司的资深工程师。

人人网:基于Hadoop的SNS统计和聚类推荐
▲点击进入IT168 Hadoop大会直播专题

  据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留下了真实资料。

人人网:基于Hadoop的SNS统计和聚类推荐
人人网高级技术经理白伯纯

  人人网的白伯纯工程师认为,现在的互联网已经发展到了web 2.0时代,其与web 1.0相比,最大不同在于,每个用户都具有唯一标识,而这将给人人网带来巨大的机遇。用户每天都在产生内容,如果能够对其内容进行分析处理,并推送相应的内容给他,那么就能对用户产生黏性。

人人网:基于Hadoop的SNS统计和聚类推荐

  上图显示的是人人网结构化数据产生的拓扑图,其中的每个点代表一个用户,用户与用户之间通过内容联系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  用户产生的内容会通过用户的转发而维系起来,而在这些用户中,通常有一些用户的内容会受到其他大量用户的肯定。而人人网要做的就是通过对内容的分析计算,找出这个“意见领袖”。上图中所示的红点即为“意见领袖”。

人人网:基于Hadoop的SNS统计和聚类推荐

  不同群体的用户可以通过内容维系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  最后,人人网的工程师给我们分析了人人网统计平台和聚类推荐的架构图,这跟我们介绍了Facebook公司的实时海量数据处理平台有共通之处。据透露,人人网的这个平台一共有200台服务器,采用的是Hadoop 0.21.0版本,每天大概要处理4000以上的任务,经常使用的数据量为700TB,其总共的数据量约为1.2PB,其中涉及的工具包括Hive、HBase以及Streaming。在另外的一个30台服务器组成的集群中,采用的是Hadoop 0.20.3版本,在这个集群中,只使用了HBase。

人人网:基于Hadoop的SNS统计和聚类推荐

  人人网整个统计平台的体系架构如上图所示。因为各个部门工程师对于各种技术的熟练程度不一,所以形成了以BI、Hive和M/R三种统计图形的统计效果,而人人网的各个子平台也呈现出以一种离散状态,但这些都通过Hadoop这个平台又集中地整合到一起。

0
相关文章