Oracle RAC集群启动失败怎么排查?利用crsctl命令解决
Oracle RAC集群启动失败怎么排查?利用crsctl命令解决

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
CRS-4537 错误表明本地节点无法连接 CRS,需先检查 ohasd 进程是否运行;若未运行,确认 /etc/oracle/olr.loc 路径正确后执行 crsctl start ohasd,并用 crsctl check crs 验证。
crsctl check cluster 报 “CRS-4537: Cannot communicate with Cluster Ready Services” 怎么办
遇到这个错误,先别慌。它可不是某个资源启动失败那么简单,而是意味着本地节点和集群就绪服务(CRS)之间的底层通信链路完全断了。这时候,第一步应该做什么?
优先检查 ohasd 这个最底层的进程是否还活着:
ps -ef | grep ohasd
如果命令执行后没有任何输出,那就说明Oracle的高可用自启动框架压根没起来。此时,千万别急着去执行 crsctl start crs,那只会让你在错误的道路上越走越远。
正确的做法是,先确认一个关键文件:/etc/oracle/olr.loc。这个文件必须存在,并且其内容要指向正确的OCR本地副本路径,比如 olrconfig_loc=/u01/app/19c/grid/cdata/olr.ocr。确认无误后,再手动启动这个基础服务:
sudo /u01/app/19c/grid/bin/crsctl start ohasd
启动之后,立刻用 crsctl check crs 来验证一下状态,这一步可千万别跳过。
crsctl start crs 执行后卡住或报 CRS-2672: Attempting to start 'ora.cssd'
CSSD(集群同步服务)是RAC的心跳和成员管理核心,它的启动依赖于OCR和表决磁盘的可访问性。命令卡在这里,通常意味着背后有三个常见的“卡点”:
- OCR设备未上线:运行
asmcmd lsdg查看OCR所在磁盘组的STATE是否为MOUNTED。如果显示为DISMOUNTED,就需要先用sqlplus / as sysasm登录,手动执行ALTER DISKGROUP OCRVOTE MOUNT;命令。 - 表决磁盘路径不可达:执行
crsctl query css votedisk,输出的路径必须能被集群中的所有节点通过完全相同的路径访问(比如都走ASM,或者都走NFS)。同时,要检查这些路径文件的权限是否为root:oinstall和644。 - 网络心跳异常:检查
olsnodes -n是否能列出所有节点及其编号。如果某个节点缺失,就去查日志/u01/app/19c/grid/log/,重点找“IPC Send timeout”这类错误。这大概率是私网不通,或者防火墙拦截了UDP 12345端口。/cssd/ocssd.log
crsctl stat res -t 显示 ora.asm ONLINE 但状态为 INTERMEDIATE
这个状态很有意思,它表示ASM实例虽然已经启动了,但却无法挂载OCR或表决磁盘对应的磁盘组。问题出在哪?最容易被忽略的,往往是磁盘的权限问题。
RAC启动时,要求所有OCR和表决磁盘在各个节点上,拥有完全一致的主组(oinstall)、属主(grid)和权限(660)。怎么查?用 ls -l /dev/asm* 或 ls -l /dev/mapper/* 仔细检查。这里要特别留意多路径设备,确保它们在不同节点上映射到了同一个WWID。
另外,如果使用了ASMLIB,务必确保 oracleasm listdisks 的输出,与 crsctl query css votedisk 中显示的路径完全一致。否则,CSSD服务就会找不到磁盘。
crsctl stop crs 失败并提示 CRS-2501: Resource ‘ora.cssd’ is not registered
这不是命令本身失效了,而是CRS栈已经出现了严重损坏——CSSD进程崩溃,并且其注册信息从OCR中丢失了。这时候,如果反复执行 crsctl start crs,只会加重OCR的冲突,让情况更糟。
正确的处理流程应该是这样:首先,用 ps -ef | grep d.bin 确认所有 crsd.bin、cssd.bin、evmd.bin 进程都已经彻底退出。然后,清理内存中的残留:
sudo /u01/app/19c/grid/bin/crsctl stop has -f
最后,强制重置OCR的本地缓存:
sudo /u01/app/19c/grid/bin/ocrconfig -local -manualbackup
完成这些操作后,再尝试启动服务。这里有个关键点需要注意:-local 参数仅适用于单节点故障恢复。如果是多节点集群,必须使用 -repair 模式,否则会导致OCR元数据不一致。
说到底,处理RAC启动问题,有一个原则比什么都重要:OCR和表决磁盘的物理可达性,永远比配置文件里的路径字符串更重要。哪怕 crsctl query 命令能正常返回结果,只要底层存储的I/O延迟超过2秒,CSSD就会主动驱逐节点。这种问题通常不会直接报错,只会表现为间歇性的 CRS-2674 或 ORA-15064 错误,排查时需要格外留心。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
团队版Navicat专属功能:如何监控管理团队存储用量
Na vicat团队版存储监控的真相:没有仪表盘,只有手动排查与402警报 团队版Na vicat里看不到存储用量统计 如果你正在使用Na vicat团队版,无论是Premium Team还是Cloud Team,首先得接受一个现实:产品本身并没有内置一个直观的“团队存储用量仪表盘”或实时图表。你登
mysql并发更新同一行数据怎么办_利用乐观锁或分段更新优化
MySQL并发更新同一行数据怎么办?利用乐观锁或分段更新优化 先说结论:最稳妥的方案,是优先采用带条件的 UPDATE 配合 ROW_COUNT() 检查,并结合 version 字段实现乐观锁。至于分段更新,它只在批量修正这类少数场景中作为兜底手段,绝不能替代核心的并发控制逻辑。 为什么不能指望
MySQL数据库异构迁移面临的挑战_转换数据类型与存储引擎
MySQL异构迁移:四大核心挑战与实战应对指南 直接说结论:一次成功的MySQL异构迁移,远不止是数据搬运。它更像是一次精密的“器官移植”,需要针对不同“组织”的特性进行预处理。整个过程可以归纳为四类核心问题的系统化处理:时间类型必须按UTC显式转换并规避自动更新陷阱;存储引擎切换应禁用简单的ALT
mysql如何处理mysql服务无法启动_查看error日志排查原因
MySQL服务启动失败?别慌,先看懂error log在说什么 遇到MySQL服务启动失败,很多人的第一反应是重装或者四处搜索错误代码。其实,最直接、最准确的“故障诊断书”就在眼前——那就是MySQL的error log。问题在于,很多人要么找不到它,要么面对满屏的日志信息不知从何看起。今天,我们就
Oracle如何防止DBA误操作删除用户_使用系统触发器保护
角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是:在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。 特
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

