存储 频道

VForum2011:vSphere FT下一代架构曝光

  【IT168 专稿】由VMware主办的虚拟化及云计算年度盛会vForum 2011在北京国际饭店会议中心拉开帷幕。本届大会主题为“Your Cloud,Own it”,中文译为 “你的云你掌控”,大会上主办方详细讲解了虚拟化和云计算最新的发展趋势,以及其将如何促进 IT 加速发展,从而帮助企业业务更有效地适应市场,竞争和客户的需求。

VForum2011:vSphere FT下一代架构曝光
点击进入专题

  在vSphere 5.0之前的版本中有一个非常重要的功能组件vSphere HA,vCenter Server(VC)用来配置和管理集群,但是在发生宕机的切换操作却独立于VC,FDMs仍然默认通过主机管理网络进行通信。但在5.0中,vSphere HA被全部重写,以简化HA集群的设置与管理,为更大的规模和功能提供基础,并提高了HA的健壮性和故障应对的能力。那么vShare 5.0中的HA功能到底在哪些方面进行了加强呢?

  vSphere HA 5.0中的master与slaves

  新的vSphere HA代理被称之为Fault Domain Manage(FDM),其旨在Host上提供所有的HA相关功能。说到FDM,就不得不提到另外两个新的概念,即master和slaves。与以往所有版本中不同的是,5.0中不再有pnmary和secondary的概念,取而代之的是master和slaves。Master FDM的职责是监控整个集群中的主机或虚机的可用性,负责主机或虚机失效后的VM重启,并向VC报告集群的状态和故障信息,同时还维护集群的持久状态信息。一般来说,一个集群仅有一台master,其他的FDM被指定为slaves。master通过选举产生,任何一台FDM都可以被选举为master。

  与master相对的slaves的职责则是将关键的状态变化信息转发给master,并根据master的指示重启VM。在master失效的情况下,参与新的master的选举。不管是master还是slaves也好,每一台FDM的通用职责是监控本地主机和VM的状态,实现VM或应用的监控特性。

  Master的选举主要分为四种情况,即vSphere HA被启动时、masters主机失效、master主机上HA被重新配置以及进行管理网络分区时会对master进行选举。如果存在多个master的情况下,除了保留一个master之外的所有主机都要进行推出master状态的操作。Master选举耗时极短,大约在15秒到20秒之间。选举master的依据主要为主机挂载的Datastore的数量,数量相等的时,则通过Host ID进行选举,以保证每个集群只有一个master。

  FDM双重通讯保证业务连续性

vSphere FT中的故障处理机制及典型场景

  与上一代产品不同的是,FDM代理之间的通讯是通过管理网络进行环状通讯,当管理网络不可用时,则通过Datastore进行通讯。使用环状通讯的好处在于,所有的通讯都是点对点通讯,并通过UDP进行选举。为保证数据传输安全,所有的master到slaves之间通讯都被通过SSL的方式进行加密。

  在使用了管理网络进行后,还增加了存储心跳这个功能的最大目的在于更好地保护集群中主机的业务不受其他故障的局限,更好地保证业务连续性。在本堂技术课程了,VMware给我们介绍了由于通讯不畅所引发的三种典型故障,不用通过手动方式,vSphere自动就能进行恢复。

  主机故障

vSphere FT中的故障处理机制及典型场景

  当主机无法连接到master,也无法响应ICMP pings,同时master也无法侦测到该主机的存储心跳时,master就会声明这台主机为Dead。并且master就会尝试重新启动该主机上的所有虚机,或者在网络可达的其他主机上火master本身重新启动这些虚机。

  主机被网络分区

vSphere FT中的故障处理机制及典型场景

  当master无法通过管理网络和某一台主机进行通讯,但master却可以检测到其存储心跳时,则声明这台主机为网络分区。此时,每个分离的网络分区都会进行选举,并产生一个master,在网络隔离的情况下,VC只会和一个master通信,任意一个VM都只能被一个master管理。在其他分区中的虚机将会通过存储心跳进行监控,一旦失效就会在所在的分区中重启虚机。一旦管理网络恢复之后,就仅仅只保留一个master,其他master将进行退出操作。

  网络隔离

vSphere FT中的故障处理机制及典型场景

  当主机无法看到vSphere HA网络通信或者无法ping通隔离地址时,即可判断这台主机发生网络隔离。此时,主机就将进入隔离响应,并检查是否有master控制一个虚机,如果虚机被master控制或者datastore不可访问,则应用隔离响应,Master重启关闭的虚拟机;如果能够通过存储心跳访问,则主机报告为隔离,否则报告为Dead,如果为Dead,则按刚刚讲到的第一种应对方案进行响应。

vSphere FT中的故障处理机制及典型场景

  以上为vSphere HA 5.0中的故障处理机制,在管理网络出现故障的情况下,通过存储心跳来更为准确地判断主机的实际情况,再采取响应的措施解决故障。通过增加的存储心跳来判断主机故障,避免了不必要的重启操作,从而降低了业务中断的风险,极大地保证了业务连续性。

vSphere FT中的故障处理机制及典型场景

  虽然通过上述的故障处理机制能极大地提高业务连续的能力,但其并不能解决所有问题,只有VC得知VM进入被保护状态的前提下,才能对其保护,而在master没有将虚机的信息写入完成之前的过程中,虚机都无法得到保护,需要人工进行判断并应对。

0
相关文章