基于PPO强化学习算法在AI领域的实战应用案例
《超级马里奥兄弟》你能挑战到第几关?说起这款红白机时代的经典之作,相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔,早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞,躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花,仿佛瞬间回到了儿时时光。 最初发
《超级马里奥兄弟》你能挑战到第几关?说起这款红白机时代的经典之作,相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔,早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞,躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花,仿佛瞬间回到了儿时时光。

最初发行的《超级马里奥兄弟》版本共设定了8个世界,每个世界包含4个关卡,总计32个关卡。相信不少朋友至今仍未完全通关——德国程序员Viet Nguyen就是其中之一。他只玩到了第9关,于是决定借助强化学习AI来替他弥补这份遗憾。如今,他训练出的AI马里奥大叔已成功拿下29个关卡。
不过遗憾的是,第4、7、8世界的第4关未能通过。Viet Nguyen解释说,这与游戏机制有关:一局结束后玩家可以自行选择通关路径,但这可能导致重复访问同一关卡,因此AI始终没能进入那三个关卡。
他所采用的强化学习算法正是OpenAI研发的近端策略优化算法(Proximal Policy Optimization,简称PPO)。此前尝试用A3C代码训练马里奥闯关,效果远不及这次,能冲到29关也超出了最初的预期。目前,Viet Nguyen已将基于PPO编写的完整Python代码开源,并附上了详细的使用说明。
还能玩Dota的AI算法:PPO
PPO是OpenAI在2017年开发的算法模型,主要用于训练虚拟游戏玩家OpenAI Five。这位虚拟玩家在2018年的Dota 2人机对抗赛中,曾战胜世界顶级职业选手,同时能够击败99.95%的普通玩家。
复杂的游戏环境一直是AI训练的理想场景。为了让AI掌握游戏规则、学会运用策略,强化学习成为研究人员常用的机器学习方法之一,它可以描述并解决AI智能体在与环境交互过程中通过学习策略实现特定目标的问题。近端策略优化算法(PPO)已成为深度强化学习中基于策略的方法里效果最优的算法之一,相关论文已发布在arXiv预印论文库中。
论文指出,PPO是一种新型的策略梯度算法,它提出了新的“目标函数”,能够执行多个训练步骤,实现小批量更新,从而解决了传统策略梯度算法中步长难以确定的问题。固定步长的近端策略优化算法工作流程如下:每次迭代时,N个actor中的每个都收集T个时间步长的数据,然后在这些NT时间步长的数据上构建替代损失,并使用minibatch SGD进行K个epochs的优化。
研究人员强调,PPO具备了信任区域策略优化的部分优点,但实施起来更简单、更通用,且具有更好的样本复杂度。为验证性能,他们在多个基准任务上进行了模拟测试,包括人形机器人运动策略和Atari游戏的玩法。
PPO算法的基准任务测试
在游戏角色的AI训练中,一项基本功能是具备连续性的运行和转向。例如马里奥遇到地面或空中障碍时,能够以此为目标进行跳跃和躲避。为了展示PPO在高维连续控制方面的性能,论文中采用3D人形机器人进行了测试,具体任务包括:
(1)仅向前运动;(2)每200个时间步长或达到目标时,目标位置随机变化;(3)被目标击倒后,需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。
研究人员从学习曲线中随机抽取了任务二在某一时刻的性能表现。可以看出,在第六帧的放大图中,人形机器人朝目标移动,随后目标随机改变位置,机器人能跟随转向并朝新目标运行。这说明PPO在连续转向控制方面具备出色的性能。
那么它在具体游戏中的“获胜率”如何呢?研究人员用包含49款游戏的Atari合集进行验证,并与A2C和ACER两种算法做了对比。为排除干扰,三种算法使用了相同的策略网络架构,并对另外两种算法进行了超参数优化,确保它们在基准任务上的性能最大化。
评估采用两个指标:一是整个训练期间每集的平均获胜数,二是在持续100集训练中每集的平均获胜数。前者更适合快速学习,后者有助于评估最终比赛表现。结果显示,PPO在第一个指标下获胜次数达到30,在小样本下拥有更高的胜率。
最后,研究人员还强调PPO的优势在于简洁易用:仅需几行代码就能从原始策略梯度实现进行修改,适用于更常规的设置,同时整体效果更优。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:基于PPO强化学习算法在AI领域的实战应用案例要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打
在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金
Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一
在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A
- 日榜
- 周榜
- 月榜
热点快看
