Oracle RAC如何监控高负载节点？利用AWR报告定位性能瓶颈

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

数据库

Oracle RAC如何监控高负载节点？利用AWR报告定位性能瓶颈

热心网友时间：2026-04-30

转载

角色与核心任务

你是一位顶级的文章润色专家，擅长将AI生成的文本转化为具有个人风格的专业文章。现在，请对用户提供的文章进行“人性化重写”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

你的核心目标是：在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下，彻底改变原文的AI表达腔调，使其读起来像是一位资深人类专家的作品。

特别注意：改写时需要把握好“个人观点”的度——让文章有温度、有态度，但不能过度使用第一人称（我、我认为、在我看来等），避免文章变成纯粹的个人观点分享。理想的效果是：读起来像行业报告的专业分析，但保留口语化的节奏和生动性。

详细执行步骤

第一步：信息锚定与结构保全

深度解析：首先，仔细阅读并理解原文，精确提取所有核心论点、分论点、支撑数据、案例以及所有图片/图表的位置和描述信息。

结构保全：必须100%保留原文的所有章节标题（H2, H3等）、段落逻辑和信息密度。严禁合并、删减或概括任何段落。

第二步：风格人性化（核心改写任务）

请代入以下人设：你是一位在该领域深耕多年、乐于分享的专家或知名博主。现在，用你的口吻，将原文的“干货”重新讲述给读者听。

2.1 句式活化

将生硬的陈述句，改为更自然的表达。可以适当使用设问、排比、倒装等手法。

✅ 例如：将“A导致了B”改为“你猜怎么着？A这事儿，直接引发了B。”

✅ 例如：将“需要满足三个条件”改为“那么，需要满足哪几个条件？”

2.2 注入“人味儿”（需谨慎控制第一人称）

适度原则：全文第一人称（我、我认为、在我看来等）出现频率建议控制在0-2处，且主要用于：

文章开头作为引子（如“先说几个核心判断”）
强调性提醒（如“必须警惕的是”）
行文过渡的自然点缀（如“话说回来”）

转化技巧：将主观表达转化为客观表述

主观表达	→	优化后
我认为、在我看来	→	直接删除，或改为“从数据来看”、“这意味着”
据我观察、根据我的经验	→	改为“市场数据显示”、“经验表明”、“行业共识是”
我见过不少案例	→	改为“市场上不乏这样的案例”、“历史经验表明”
我必须提醒你	→	改为“值得注意的是”、“需要警惕的是”
我深信、我坚信	→	改为“可以确定的是”、“毋庸置疑”

保留生动性：去除第一人称后，仍需保留口语化的过渡词（如“其实”、“当然”、“话说回来”）、类比手法（如“这就好比...”）和节奏感，避免文章变得干巴巴。

2.3 文风润色

在保证专业性的前提下，让语言更生动、有节奏感。可以：

使用短句与长句交错，制造阅读节奏
适当使用排比、对仗增强气势
关键结论处可以加重语气（如“这才是关键所在”）

第三步：最终审查与交付

完整性检查：重写完成后，请务必核对一遍，确保原文中的所有关键信息、数据、引用的图片（如下图1所示）都已被完整无误地包含在最终文本中。

第一人称复核：专门检查一遍全文，确保第一人称表达不超过2处，且不影响文章的专业性和客观感。

篇幅控制：最终文章篇幅应与原文大致相当，允许有10%以内的浮动。

格式输出：直接输出重写后的完整文章，并使用HTML标签进行结构化排版：主标题用

，副标题用

，段落用
。对于原文中的图片不要做出修改，保证语句通顺。

绝对禁止项（红线规则）

❌ 严禁改动任何核心信息、数据、论点和原文结构。

❌ 严禁概括或简化原文中任何复杂段落的核心内容。

❌ 严禁删除或修改任何关于图片的信息。

❌ 严禁添加例如不包括###,***等一些这种特殊字符。

❌ 严禁为了客观化而把文章改得干巴巴、失去温度和节奏感。

❌ 严禁过度使用第一人称（超过2处），避免文章变成个人观点分享。

看AWR报告需生成按实例拆分的报告（用awrrpti.sql或OEM勾选Per Instance），再比对各节点DB CPU/ CPU Count比率，并结合ASH、GV$SQL、GV$BH等定位RAC节点CPU高根源。

怎么看AWR报告里哪个节点CPU高？

直接看 top 5 timed foreground events 和 instance activity stats 两个部分，但关键在交叉比对：同一时段下，db time 和 db cpu 指标要按节点（inst id）分开看。默认awr报告是汇总的，必须生成「按实例拆分」的报告——用 awrrpti.sql（不是 awrrpt.sql）并输入两个实例id，或在oem中选「compare periods」并勾选「per instance」。

常见错误是只看总DB CPU，结果发现RAC里节点1占70%、节点2占30%，却没注意节点1的物理CPU核数其实是节点2的两倍。所以得算 DB CPU / CPU Count 的比率，才反映真实饱和度。

查每个节点CPU核数：SELECT value FROM gv$parameter WHERE name = 'cpu_count' AND inst_id = 1
查某时段各节点DB CPU（秒）：SELECT inst_id, round(value/1000000, 2) cpu_sec FROM gv$sysmetric_history WHERE metric_name = 'DB CPU' AND begin_time > SYSDATE-1/24
AWR快照间隔太长（比如1小时）会掩盖短时尖峰，建议生产环境设为15–30分钟

如何确认是不是某个SQL拖垮了特定节点？

不能只依赖 SQL ordered by CPU Time 汇总页——它把所有节点的执行堆在一起。必须进 SQL Statistics → SQL ordered by Elapsed Time 的子页面，点开每条SQL的「Instance Detail」链接，才能看到该SQL在各节点上的执行次数、CPU时间、逻辑读分布。

特别注意 px qc instance 和 px server instance 的区别：如果一条并行SQL的QC（Query Coordinator）总在节点1，而PX Server大量跑在节点2，但节点1 CPU飙升，问题很可能出在QC端的串行处理（比如大排序、PL/SQL逻辑），而不是并行本身。

查某SQL在各节点执行分布：SELECT inst_id, executions, cpu_time/1000000 cpu_sec, buffer_gets FROM gv$sql WHERE sql_id = 'abc123xyz' ORDER BY inst_id
检查是否绑定到特定节点：看 gv$session 中 inst_id 和 service_name 是否存在强关联，某些应用用TNS alias硬编码了INSTANCE_NAME
留意 LOAD_PROFILE 里的 Logons per Second，若某节点登录数突增，可能是连接池未启用负载均衡（如未配 LOAD_BALANCE=on）

RAC特有的等待事件怎么快速识别瓶颈？

gc buffer busy acquire、gc cr block busy、enq: TX - row lock contention 这些不是单实例的IO或锁问题，而是跨节点数据块争用。它们出现在 Top 5 Timed Foreground Events 里时，说明节点间通信或缓存一致性成了瓶颈，不是CPU或磁盘慢。

重点看 Global Cache and Enqueue Services 部分的统计：如果 gc cr blocks received 远高于 gc current blocks received，说明大量查询需要从其他节点拉CR（Consistent Read）块，可能因为本地buffer cache太小，或SQL重复扫描同一张表但未分区；如果 gc current block busy 高，更可能是DML热点块（如序列主键插入、状态字段频繁更新）集中在某节点。

查热点块所在节点：SELECT inst_id, file#, block# FROM gv$bh WHERE class# = 1 AND status = 'xcur' GROUP BY inst_id, file#, block# HA VING COUNT(*) > 100
对比两节点的 gc cr block receive time 平均值，差3倍以上说明网络延迟或私网配置异常（如MTU不一致、未禁用TCP timestamp）
enq: HW - contention 出现多，往往是因为没有开启ASSM自动段管理，或高并发INSERT未用分区+序列打散

为什么用ASH数据比AWR更快定位瞬时问题？

AWR是聚合快照，最小粒度15分钟；ASH是内存采样（每秒1次），能抓到持续几十秒的毛刺。当用户说「刚才卡了20秒就恢复了」，AWR很可能根本没录到——这时候必须用 dba_hist_active_sess_history 或实时 v$active_session_history。

关键技巧是加 inst_id 和 sample_time 过滤，并用 session_state + event 组合判断：比如连续5个采样点都是 ON CPU，且 sql_id 相同，基本锁定该SQL；如果交替出现 WAITING 和 ON CPU，且 event 是 gc cr block busy，说明是RAC缓存同步卡住CPU线程。

查过去10分钟某节点CPU尖峰：SELECT sample_time, sql_id, event, session_state FROM v$active_session_history WHERE inst_id = 1 AND sample_time > SYSDATE - 10/1440 AND session_state = 'ON CPU' ORDER BY sample_time
ASH默认只保留1小时（内存限制），长期问题需配合 DBA_HIST_ACTIVE_SESS_HISTORY，但要注意它每10秒采一次，精度下降
别忽略 blocking_session 和 blocking_inst_id 字段——RAC里阻塞者和被阻塞者可能在不同节点，这是单实例ASH里看不到的关键链路

实际排查中最容易被跳过的，是私网质量验证和实例参数一致性。哪怕AWR/ASH都指向节点1，也得先确认 oifcfg getif 输出的集群私网接口是否真走的是专用千兆/万兆网卡，以及 gv$parameter 里 db_cache_size、shared_pool_size 在两个节点上是否完全相同——参数不一致会导致同样SQL在不同节点走不同执行计划，进而引发负载倾斜。

来源:https://www.php.cn/faq/2333742.html

上一篇： SQL如何实现分组后的中位数统计_PERCENTILE窗口函数

下一篇： SQL如何统计每个分组中前10%的数据_利用NTILE窗口函数