Oracle 集群心跳及其參数misscount/disktimeout/reboottime
发布日期:
2019-01-01


在Oracle RAC中,能够从多个层次,多个不同的机制来检測RAC的健康状况,即能够通过心跳机制以及一定的投票算法来隔离故障。假设检測到某节点失败,则存在故障的节点将会被逐出集群以避免故障节点破坏数据。本文主要描写叙述了Oracle RAC下的几种心跳机制以及心跳參数的调整。

 

一、OCSSD与CSS 

OCSSD是一个管理及提供Cluster Synchronization Services (CSS)服务的Linux或者Unix进程。使用Oracle用户来执行该进程并提供节点成员管理功能,一旦该进程失败。将导致节点重新启动。CSS服务提供2种心跳机制。一种为网络心跳。一种为磁盘心跳。两种心跳都有最大延时,网络心跳的延时叫MC(Misscount), 磁盘心跳延时叫作IOT (I/O Timeout)。

这2个參数都以秒为单位。缺省时情况下Misscount < Disktimeout。

以下分别描写叙述这2种心跳机制。

 

二、网络心跳

故名思义即是通过私有网络来检測节点的状态。假设私有网络硬件、软件导致集群节点间私有网络在一定时间内无法进行正常通信。由此而导致脑裂。由于集群环境中的存储为共享存储,因此此时必须要将故障节点从 集群隔离出来,以避免数据灾难。关于这个网络心跳的详细动作描写叙述例如以下: 
    Every one second, a sending thread in the cssd sends a network tcp heartbeat to itself and all nodes. The receiving thread of the ocssd.bin receives the heartbeat.  
    If the package network is dropped or has error, the error correction mechanism on tcp would retransmit the package.   
    Oracle does not retransmit.  From the ocssd.log, you will see a WARNING message about missing of heartbeat if a node does not receive a heartbeat from another node for 15 seconds (50% of miscount).  Another warning is reported in ocssd.log if the same node is missing for 22 seconds (75% of miscount)..another warning continues from the same node for 27 seconds (90% miscount).  When the heartbeat is missing 100% ..30 seconds miscount, the node is evicted 
  

这个网络心跳的延迟称之为misscount,能够通过crsctl 工具查询及改动。 

[grid@Linux-01 ~]$ crsctl get css misscount 

CRS-4678: Successful get misscount 30 for Cluster Synchronization Services. 


相关推荐

【DTCC2019】数据风云,十年变迁 - 第十届中国数据库技术大会隆重启动
作为国内备受关注的数据库及大数据领域技术盛会,第十届中国数据...
董明珠谈小米做空调:质量和技术比他们好,没压力
董明珠称,格力启动九万员工开网店的模式后,格力业绩当月卖了2...
半年坠毁两架,波音737MAX-8你还敢坐吗?
当地时间3月10日上午,埃塞俄比亚航空公司的一架载有149名...
近20年数据被黑客全部清空 美国电邮商 VFEmail宣布倒闭
数据,对于企业来讲是至关重要的,如果企业的数据库被黑客攻陷,...