存储 频道

何鹏:Hadoop在海量网页搜索中应用分析

  【IT168 资讯】12月2日-3日,以主题为“海量数据掘宝”的Hadoop中国2011云计算大会在北京会议中心召开。本次大会邀请了Apache软件基金会主席 Doug Cutting先生、威斯康星大学教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘宝、华为、支付宝、奇虎、新浪、中兴、曙光、腾讯、人人网、清华大学、英特尔以及百度等学术机构、国际知名公司的资深工程师。

何鹏:Hadoop在海量网页搜索中应用分析
▲点击进入IT168 Hadoop大会直播专题

  何鹏是即刻搜索研发部系统平台组的工程师,即刻搜索是人民网其下的搜索引擎,由人民搜索转变而来,于今年6月20日正式上线。据何鹏介绍,即刻搜索目前存放了200亿个文件以上,其整个系统架构采用Hadoop海量数据分析平台,并针对特定环境对应用程序做了修改。在本次演讲中,何鹏工程师将为我们分析基于Hadoop的海量网页分析案例。

何鹏:Hadoop在海量网页搜索中应用分析
▲即刻搜索研发部系统平台组工程师何鹏

  即刻搜索整体架构借助了Hadoop整个海量分析平台,并针对特定环境增删修改了部分中间件,改良了部分应用程序,以提高性能,下图所展示的是即刻搜索的整体框架图:

何鹏:Hadoop在海量网页搜索中应用分析
▲即刻搜索整体架构图

  在上图中,HDFS即为Hadoop海量数据处理平台,其中Hdfs_Bridge为新添加的中间件,并且,JikeSpider为即刻搜索工程师新开发的应用,并对部分程序进行了改良。

  Hdfs_Bridge为即刻搜索海量数据处理平台的中间件,主要是满足爬虫的快速写,并对文件提供自动Flush sstable功能。其通过将写转化为内存写,用DFS直接Flush。以此替代HDFS的多次不必要的序列化和反序列化。

何鹏:Hadoop在海量网页搜索中应用分析

  并且,即刻还对Hadoop Pipes进行了改良。通过修改Hadoop pipse的通信写u,将单一的路劲输入输出改为多路径输入输出。还进行本地化调试,并对部分代码进行了优化。

  据何鹏工程师介绍,目前即刻搜索的海量数据处理平台还存在一些不足,正在不断优化。比如在部分大型作业时,多个task分配到同一台及其,导致该机器负载过大,从而拖慢整个作业进度,甚至在极端状况下,出现内存过慢的情况。何鹏认为,其主要原因在于任务调度分配不合理,其技术团队正在开发一个中间件,以对集群内的机器任务进行合理分配。

  何鹏介绍说,其初步设想是通过tasktracker对CPU、内存、硬盘以及网络等信息进行搜集,并汇报给jobtracker。调度器接受到这些信息之后,在调度任务时将CPU、内存、硬盘以及网络等信息纳入考虑之中,在进行合理的任务分配。

  并且,由于数据中心的能耗较大,何鹏希望能够通过技术手段来降低数据中心的能耗。例如集群能源进行管理,当CPU、I/O以及磁盘长时间处于idle时,即可整机进入省电模式;甚至还可对idle较长的模块进行关闭操作。

0
相关文章