PPO算法详解图解近端策略优化原理与计算步骤

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

PPO算法详解图解近端策略优化原理与计算步骤

热心网友时间：2026-05-27

转载

在强化学习领域，如果要评选一款“通用型”算法，PPO（近端策略优化）无疑是首选。它之所以能广泛应用于游戏AI、机器人控制乃至大语言模型对齐任务，关键在于其卓越的稳定性——易于实现、训练过程可靠，并能同时处理离散与连续动作空间。

简而言之，PPO属于策略梯度算法系列，但它引入了一个关键约束：严格限制新旧策略之间的更新幅度。这种设计既保证了策略性能的稳步提升，又避免了因更新过大导致的训练振荡或策略崩溃。此外，PPO支持样本复用，显著提升了数据利用效率。

PPO 算法的网络结构

PPO的核心架构通常由两个神经网络组成，它们各司其职，协同完成学习任务。

① Actor —— 策略网络

你可以将Actor网络视为系统的“决策中枢”。

输入： 当前的环境状态（State s）。
输出： 动作的概率分布（对于连续动作，输出均值和方差）、最终执行的动作a，以及该动作的对数概率 log π(a|s)。
核心作用： 根据当前感知的状态，决定智能体应采取的具体行为。它负责“执行”。

② Critic —— 价值网络

而Critic网络，则扮演着“评估专家”的角色。

输入： 同样是状态 s。
输出： 当前状态的价值估计 V(s)。这个数值评估了处于该状态的长期收益预期，即未来可能获得的累积奖励。
核心作用： 评估Actor决策的优劣，并计算出关键的“优势函数”（Advantage），用以指示特定动作相对于平均表现的优势或劣势程度。

网络更新

训练过程是这两个网络持续优化的循环。PPO遵循一个重要原则：采样时使用旧策略执行动作，网络更新时则用新策略计算旧动作的概率。新策略生成的动作需等到下一轮数据采集时才会被执行，这确保了训练数据的一致性。

① Actor 网络更新（策略更新）

Actor的更新是PPO算法的核心，其目标是：增加高回报动作的概率，降低低回报动作的概率，同时将所有更新约束在一个安全的阈值内。

使用损失函数： PPO-Clip。
输入要素： 状态s、旧策略下动作的概率（π_old）、新策略下同一动作的概率（π_new）、以及Critic网络提供的优势函数A。
计算步骤：
1. 计算新旧策略的概率比率 r = π_new / π_old。
2. 将该比率r裁剪（clip）到预设的区间内，例如 [1-ε, 1+ε]，当ε=0.2时，区间为[0.8, 1.2]。
3. 计算最终损失：取 min( r * A, clip(r) * A )。这一步有效防止了因优势估计异常而导致的更新幅度失控。
4. 通过反向传播算法更新Actor网络参数。
核心特点： 更新被限制在“近端”的小范围内，训练过程极其稳定，从根本上解决了传统策略梯度方法中常见的策略“崩溃”问题。

② Critic 网络更新（价值评估更新）

Critic网络的更新相对直接，目标是使其对状态价值的预测越来越精准。

使用损失函数： 均方误差（MSE）。
输入要素： 状态s，以及实际回报G或时序差分（TD）目标值。
计算过程： Critic网络输出对当前状态的估值V(s)，计算该估值与目标回报之间的误差，然后使用MSE损失进行反向传播，从而更新Critic网络参数。
核心作用： 通过提供更准确的优势信号，来更有效地指导Actor网络的策略优化方向。

手动计算

要深入理解PPO算法，动手计算是关键。我们聚焦于两个核心环节：广义优势估计（GAE）和模型更新过程。

广义优势估计

优势函数A用于衡量特定动作相对于策略平均表现的优劣。GAE是一种高效的方法，它通过融合多步时序差分（TD）误差，得到更平滑、方差更低的优势估计值。

TD误差（td_delta）是计算基础：

td_delta = 即时奖励 + 折扣因子×下一个状态价值 - 当前状态价值

GAE优势（advantage）通过递归方式计算：

advantage = 当前TD误差 + 衰减系数 × 下一步的advantage

举例说明，假设我们有三步的TD误差序列：`[10, 5, -10]`，设定衰减系数（γ * λ）为0.81。我们从最后一步开始向前递推计算：

t=2: advantage = -10 + 0.81×0 = -10
t=1: advantage = 5 + 0.81×(-10) = -3.1
t=0: advantage = 10 + 0.81×(-3.1) = 7.489
最终得到的GAE优势序列为：[7.489, -3.1, -10]

模型更新（update）

下面我们模拟一个简化的更新流程。假设参数设置如下：折扣因子γ=0.9，GAE参数λ=0.9，裁剪范围ε=0.2（对应区间[0.8, 1.2]）。

我们拥有两条样本数据：

state0 = [1.0, 0.0, 1.0, 0.0, 0.0, 0.0], action0 = 0
state1 = [0.9, 0.1, 0.8, 0.2, 0.5, 0.1], action1 = 2
对应的优势函数值为：advantage = [-0.82, -2.0]

1. 计算新旧概率比（ratio）

首先，需要获取旧策略和新策略分别产生这些动作的概率。假设通过模型前向传播得到对数概率：

旧策略：old_log_prob0 ≈ -0.357, old_log_prob1 ≈ -2.303
新策略：new_log_prob0 ≈ -0.094, new_log_prob1 ≈ -3.000

计算概率比（通过对数概率差取指数得到）：

ratio0 = exp( (-0.094) - (-0.357) ) = exp(0.263) ≈ 1.30
ratio1 = exp( (-3.000) - (-2.303) ) = exp(-0.697) ≈ 0.50

可见，ratio0=1.30超出了裁剪上限1.2，ratio1=0.50则低于裁剪下限0.8。

2. 计算PPO Clip策略损失（policy_loss）

针对第一条样本（ratio0=1.30, adv0=-0.82）：

未裁剪部分：1.30 * (-0.82) = -1.066
裁剪后部分：clip(1.30→1.2) * (-0.82) = -0.984
取两者中较小的：min(-1.066, -0.984) = -1.066

针对第二条样本（ratio1=0.50, adv1=-2.0）：

未裁剪部分：0.50 * (-2.0) = -1.0
裁剪后部分：clip(0.50→0.8) * (-2.0) = -1.6
取两者中较小的：min(-1.0, -1.6) = -1.6

策略损失是这些值的负平均值（因为优化器通常以最小化损失为目标）：

policy_loss = - [ (-1.066) + (-1.6) ] / 2 = - [ -2.666 / 2 ] = 1.333

3. 计算价值损失（value_loss）

假设Critic网络对两个状态的估值为：V(s0) = -3.18, V(s1) = 0.0。目标回报（TD目标）假设为：td_target0 = -1.0, td_target1 = 0.0。

使用均方误差计算价值损失：

loss0 = (-3.18 - (-1.0))^2 = (-2.18)^2 = 4.75
loss1 = (0.0 - 0.0)^2 = 0
value_loss = (4.75 + 0) / 2 = 2.375

手算最终结果

ratio0 = 1.30, ratio1 = 0.50
policy_loss = 1.333
value_loss = 2.375

通过这样一个从理论推导到手动计算的全过程，PPO如何通过裁剪机制实现稳定更新，以及Actor和Critic网络如何协同优化，便一目了然。这正是PPO算法能够成为工业级强化学习首选方案的深层原因。

来源:https://developer.aliyun.com/article/1737079

上一篇：悟空AI 30硬件开发框架发布从芯片到量产开启多模态进化

下一篇： GitHub霸榜一周的桌面助手工具为父亲贴心打造

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

博德之门3自定义战役第二章延期原因与上线时间

博德之门3最后之光旅店伊索贝尔手套使用技巧

奥特曼英雄决战公测时间确定预约入口与上线日期一览

博德之门3为何因会计问题取消原版开发

冰霜法师选技大乱斗玩法冰暴大招流实战教学

博德之门3主机版模组更新新增猫娘影心与提夫林子种族

异人之下手游开发商与制作工作室背景全解析

博德之门3哈尔辛演员谈熊场景幕后趣事

时空猎人觉醒礼包码最新可用兑换码领取攻略

奥特曼超时空英雄无法登录原因与公测时间解析

漫蛙漫画防走失网页链接

2026年烈焰觉醒真实礼包码免费领取永久兑换

星之破晓4GB运行内存能流畅玩吗游戏配置要求详解

Wizardry Variants Daphne官网地址与游戏攻略指南

0.1折手游超越黎明清凉版官方正版下载

星之破晓集卡活动参与方法与玩法全攻略

小小仙王清凉版官方下载免费获取正版安装包

星之破晓星魂战场位置与玩法全攻略

幻界之境最新兑换码大全免费领取全部礼包码

乱涂彩世界游戏需要多大内存空间

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

牙刀784伤害连招教学饿狼传说群狼之城高伤连段详解发布于 2026-05-27

MCJS浏览器版1.8.8官网入口与最新地址获取发布于 2026-05-27

女神异闻录6开发完成确认双主角设定2027年发售发布于 2026-05-27

巫师3狂猎旧时曲DLC官宣详解2027年发布发布于 2026-05-27

名越稔洋新作《Gang of Dragon》开发中止投资方撤资发布于 2026-05-27

三国志王道天下游历奖励速领攻略发布于 2026-05-27

GTA6主线剧情通关时长揭秘五大章节内容深度解析发布于 2026-05-27

MCJS网页版在线访问指南 MCJS1.8.8官网入口详解发布于 2026-05-27

晶核尼尔联动武器寂曜之约强度解析与获取攻略发布于 2026-05-27

2026年兽人游戏下载推荐与热门作品盘点发布于 2026-05-27

曙光英雄弗兰肯斯坦技能重做解析新版技能效果详解发布于 2026-05-27

辉光之城1907居住安排全攻略发布于 2026-05-27

2026年热门语音互动手游排行榜精选推荐发布于 2026-05-27

代号云端上线时间公布最新开服日期与公测信息发布于 2026-05-27

2026年类似亿万僵尸的生存建造游戏推荐与合集盘点发布于 2026-05-27

2026年必玩忍者格斗游戏推荐：五款横屏动作佳作合集发布于 2026-05-27

Windows 11 任务管理器查看 NPU 频率与 AI 硬件占用率教程发布于 2026-05-25

Linux系统修改默认网关命令与永久生效配置教程发布于 2026-05-25

麒麟系统开机自启动脚本设置方法详解发布于 2026-05-25

麒麟系统安装IntelliJ IDEA插件扩展开发功能发布于 2026-05-25

Windows 11 RP预览版25145发布及KB5089573更新日志详解发布于 2026-05-25

Windows 11 26H1预览版28000.2173更新日志KB5089570详解发布于 2026-05-25

Win11预览版26300.8493更新本地文件搜索排序优先发布于 2026-05-25

Win11预览版8521修复音频与通知问题发布于 2026-05-25

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

PPO算法详解图解近端策略优化原理与计算步骤

PPO 算法的网络结构

① Actor —— 策略网络

② Critic —— 价值网络

网络更新

① Actor 网络更新（策略更新）

② Critic 网络更新（价值评估更新）

手动计算

广义优势估计

模型更新（update）

豆包与腾讯元宝办公场景对比评测

ShareGPT团队协作应用指南：AI对话标注与场景讨论实践

人工智能需人性引领，中国技术如何塑造未来技能发展

千问长文档摘要功能详解：万字文稿一键总结参数设置指南

宇树科技应用落地进展如何？官方回应首度披露

PPO算法详解 图解近端策略优化原理与计算步骤

PPO 算法的网络结构

① Actor —— 策略网络

② Critic —— 价值网络

网络更新

① Actor 网络更新（策略更新）

② Critic 网络更新（价值评估更新）

手动计算

广义优势估计

模型更新（update）

豆包与腾讯元宝办公场景对比评测

ShareGPT团队协作应用指南：AI对话标注与场景讨论实践

人工智能需人性引领，中国技术如何塑造未来技能发展

千问长文档摘要功能详解：万字文稿一键总结参数设置指南

宇树科技应用落地进展如何？官方回应首度披露

PPO算法详解图解近端策略优化原理与计算步骤