基于PPO强化学习算法在AI领域的实战应用案例

AI热点日报时间：2026-06-30

热点解读

《超级马里奥兄弟》你能挑战到第几关？说起这款红白机时代的经典之作，相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔，早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞，躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花，仿佛瞬间回到了儿时时光。最初发

《超级马里奥兄弟》你能挑战到第几关？说起这款红白机时代的经典之作，相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔，早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞，躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花，仿佛瞬间回到了儿时时光。

基于PPO强化学习算法的AI应用案例

最初发行的《超级马里奥兄弟》版本共设定了8个世界，每个世界包含4个关卡，总计32个关卡。相信不少朋友至今仍未完全通关——德国程序员Viet Nguyen就是其中之一。他只玩到了第9关，于是决定借助强化学习AI来替他弥补这份遗憾。如今，他训练出的AI马里奥大叔已成功拿下29个关卡。

不过遗憾的是，第4、7、8世界的第4关未能通过。Viet Nguyen解释说，这与游戏机制有关：一局结束后玩家可以自行选择通关路径，但这可能导致重复访问同一关卡，因此AI始终没能进入那三个关卡。

他所采用的强化学习算法正是OpenAI研发的近端策略优化算法（Proximal Policy Optimization，简称PPO）。此前尝试用A3C代码训练马里奥闯关，效果远不及这次，能冲到29关也超出了最初的预期。目前，Viet Nguyen已将基于PPO编写的完整Python代码开源，并附上了详细的使用说明。

还能玩Dota的AI算法：PPO

PPO是OpenAI在2017年开发的算法模型，主要用于训练虚拟游戏玩家OpenAI Five。这位虚拟玩家在2018年的Dota 2人机对抗赛中，曾战胜世界顶级职业选手，同时能够击败99.95%的普通玩家。

复杂的游戏环境一直是AI训练的理想场景。为了让AI掌握游戏规则、学会运用策略，强化学习成为研究人员常用的机器学习方法之一，它可以描述并解决AI智能体在与环境交互过程中通过学习策略实现特定目标的问题。近端策略优化算法（PPO）已成为深度强化学习中基于策略的方法里效果最优的算法之一，相关论文已发布在arXiv预印论文库中。

论文指出，PPO是一种新型的策略梯度算法，它提出了新的“目标函数”，能够执行多个训练步骤，实现小批量更新，从而解决了传统策略梯度算法中步长难以确定的问题。固定步长的近端策略优化算法工作流程如下：每次迭代时，N个actor中的每个都收集T个时间步长的数据，然后在这些NT时间步长的数据上构建替代损失，并使用minibatch SGD进行K个epochs的优化。

研究人员强调，PPO具备了信任区域策略优化的部分优点，但实施起来更简单、更通用，且具有更好的样本复杂度。为验证性能，他们在多个基准任务上进行了模拟测试，包括人形机器人运动策略和Atari游戏的玩法。

PPO算法的基准任务测试

在游戏角色的AI训练中，一项基本功能是具备连续性的运行和转向。例如马里奥遇到地面或空中障碍时，能够以此为目标进行跳跃和躲避。为了展示PPO在高维连续控制方面的性能，论文中采用3D人形机器人进行了测试，具体任务包括：

（1）仅向前运动；（2）每200个时间步长或达到目标时，目标位置随机变化；（3）被目标击倒后，需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

研究人员从学习曲线中随机抽取了任务二在某一时刻的性能表现。可以看出，在第六帧的放大图中，人形机器人朝目标移动，随后目标随机改变位置，机器人能跟随转向并朝新目标运行。这说明PPO在连续转向控制方面具备出色的性能。

那么它在具体游戏中的“获胜率”如何呢？研究人员用包含49款游戏的Atari合集进行验证，并与A2C和ACER两种算法做了对比。为排除干扰，三种算法使用了相同的策略网络架构，并对另外两种算法进行了超参数优化，确保它们在基准任务上的性能最大化。

评估采用两个指标：一是整个训练期间每集的平均获胜数，二是在持续100集训练中每集的平均获胜数。前者更适合快速学习，后者有助于评估最终比赛表现。结果显示，PPO在第一个指标下获胜次数达到30，在小样本下拥有更高的胜率。

最后，研究人员还强调PPO的优势在于简洁易用：仅需几行代码就能从原始策略梯度实现进行修改，适用于更常规的设置，同时整体效果更优。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：基于PPO强化学习算法在AI领域的实战应用案例要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1260204.html

上一篇：利用LLM构建沉浸式3D虚拟世界

下一篇：单台计算机能训练AI 深度强化学习对处理要求苛刻

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本周Lorna基于CFMS数据驱动决策的投资平台 03 / 本周前街购买记录追踪查询方法 04 / 本周一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本周人工智能股票预测与多金融工具交易信号

01 / 本月AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本月Lorna基于CFMS数据驱动决策的投资平台 03 / 本月前街购买记录追踪查询方法 04 / 本月一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本月人工智能股票预测与多金融工具交易信号

热点快看

06-30 19:04AI驱动的Degiro投资组合跟踪与可视化工具 06-30 19:04Lorna基于CFMS数据驱动决策的投资平台 06-30 19:03前街购买记录追踪查询方法 06-30 19:03一款专业Finta AI驱动筹款助手，高效智能募资工具 06-30 19:03人工智能股票预测与多金融工具交易信号

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别