当前位置:首页>技术交流>IBM HACMP功能优势
IBM HACMP功能优势

IBM HACMP故障类型

HACMP将诊测并响应于三种类型的故障:网卡故障,网络故障,节点故障。下面就这三种故障分别进行介绍。

(1)网卡故障

前面讲到,HACMP的群集结构中,除了TCP/IP网络以外,还有一个非TCP/IP网络,一般为RS232连接,它实际上是一根"心跳"线,专用来诊测是节点死机还是仅仅网络发生故障。一旦节点加入了cluster(即该节点上的HACMP已正常运行),该节点上的各个网卡、RS232串口和Target-ModeSSA或SCSI就会不断地接收并发送Keep-Alive信号包,K-A的参数是可调的,针对以太网,当处于normal状态时,将每隔0.5秒发送一个K-A包,如果12个包丢失后HACMP确认对方网卡、或网络、或单点发生故障。因此,有了K-A后,HACMP可以很轻易地发现网卡故障,因为一旦某块网卡发生故障,发往该块网卡的K-A就会丢失。此时nodeA上的clustermanager(HACMP的"大脑")会产生一个swap-adapter的事件,clustermanager将原来的serviceadapter的IP地址转移到standbyadapter上,同时网上其他节点进行ARP的刷新。网卡互换(swap-adapter)通常在几秒内就可完成,以太网为3秒,并且这种转换对应用和client来说是透明的,只发生延迟但连接并不中断。

(2)网络故障

如果发往nodeA上的service和standby网卡上的K-A包全都丢失,而RS232上的K-A仍然存在,那么HACMP断定nodeA仍然正常,是网络发生故障。此时HACMP执行一个network-down的事件的script,通常这个script提供一个用户自行定义其行为的接口,用户可以根据自己的网络结构,用户数,是否有替代路径,使用的通讯软件,应用软件等来自行设计网络发生故障后应采取的行为。

(3)节点故障

如果不仅网络上的K-A全部丢失,而且RS232上的K-A也丢失,那么HACMP断定该节点发生故障,一个node-down事件发生。此时将有资源的接管发生,即放在共享磁盘阵列上的资源将由备份节点接管,接管包括一系列操作:Aquiredisks,VaryonVG,Mountfilesystems,ExportNFSfilesystems,AssumeIPnetworkAddress,Restarthighlyavailableapplications,其中,IP地址接管和应用的重启是由HACMP来实现,而其它是由AIX来完成。当整个节点发生故障时,HACMP将故障节点的serviceIPaddress转移到备份节点上,使网络上的client仍然使用这个IP地址,这个过程称为IP地址接管(IPAT),当一个节点down掉后,如果设置了IP地址接管,网络上的clients会自动连接接管节点上;同样,如果设置了应用接管,该应用会在接管点上自动重启,从而使系统能继续对外服务。对于要实现接管的应用,只需在HACMP中把它们设置成“Applicationserver",并告诉HACMP启动这个应用的startscript的全路径名和停止该应用的stopscript的全路径名。由此可见,应用接管的配置在HACMP中十分简单

供应产品
部分货件描述