存储 频道

分布式存储与离线混部弹性计算平台实践

  【IT168 SACC现场报道】在数字化转型时代,云已成为万物智能的数字化大脑。而随着大数据应用、人工智能、移动互联网等技术的飞速发展,“智慧+”的概念正在深入到各行各业,提升企业效率,释放商业潜能,创造全新机遇。作为国内优异技术盛会之一,2017中国系统架构师大会(SACC2017)将于10月19-21日在北京新云南皇冠假日酒店震撼来袭。

  大会第三日,搜狗云平台资深高级开发工程师申贤强针对HDFS 当集群扩大一定阶段后需要应对的问题,以及具体的 Fedration 的技术,针对 YARN 改进弹性计算框架改进可能遇到的问题做了分享。

分布式存储与离线混部弹性计算平台实践

  申贤强,2012 年 7 月毕业于中科院计算所,2012 年 7 月—2013 年 7 月,百度,网页搜索部,分布式架构开发,2013 年 7 月—至今,搜狗,大数据平台部,主要负责 Hadoop,HBase,Docker 等基础平台的开发和建设,以及提供一站式数据分析服务。

  申贤强认为,基于社区的 HDFS 进行元信息的垂直扩展,且进一步优化针对二级目录的拆分,让 HDFS 的元数据更加均匀,降低 GC time,提升 HDFS 稳定性到 99.99%,同时业务发展制约于计算资源的缺乏,因此采用离线混布的计算模型,将资源进行统一管理,提供稳定高效的服务,极大的解决了业务方资源不足的问题。

分布式存储与离线混部弹性计算平台实践

  关于搜狗云分布式存储与离线混部弹性计算平台,是基于Apache Hadoop生态,建设搜狗海量数据存储和计算平台,能够提供稳定高效的数据分析系统,为搜狗各类型大数据应用,提供一站式数据处理服务 。每天数十亿的数据增量,数以万计的数据计算流程,使数据的价值得到充分利用,作为前沿技术落地及推进开源技术的发展起到了重要作用。

  对于当初的技术选型阶段,申贤强吐露,通过考察国内外主流企业和互联网企业,为了实现集群的无限扩容,提供高性能、高可用,搜狗云借鉴和自研的垂直扩展Hadoop元信息的技术,即社区的Fedration方案,将集群的管理能力扩展到理论无上限,且保持高性能,稳定性达到99.99%。

  申贤强介绍,搜狗云在分布式存储优化方面,主要分为HDFS Fedration、NameService拆分、FastCopy、等切分、拆分和优化部分,优化后Master的性能和吞吐提升3倍 ,计算性能提升12%以上 ,SLA水平到达99.99%。

  搜狗云弹性计算平台的构建背景主要源于资源需求在增加,但资源的整体利用率却不高、解决实际业务资源不足问题,CPU等资源利用率低。

分布式存储与离线混部弹性计算平台实践

  C/S业务弹性计算—总体流程包括:Driver精细的资源控制,Docker环境隔离 ,YARN自动化资源控制 ,基于时间/负载的资源调度。在基于负载调度方面,Driver收集CPU/Mem/Net/Disk负载,负载超过阈值Driver Kill Service ,Driver将负载信息上报给LocateServer ,NodeManager将负载上报给RM ,RM根据负载进行资源调度 ,LocateServer根据负载返回Service Client 在不影响集群原有服务,以提高集群的利用率。

  在集群统一管理优势是提高并均衡集群利用率,解决业务方资源不足的问题以及节约成本,提高online业务的SLA水平。

分布式存储与离线混部弹性计算平台实践
▲更多精彩请点击:http://sacc.it168.com/topic2017/

1
相关文章