UCSD与英特尔联手推出PettingLLMs框架,多智能体强化学习性能提升90%
在人工智能快速发展的当下,大语言模型驱动的新型多智能体系统正展现出前所未有的潜力。然而,现有训练框架多专注于单智能体场景的优化,对于多智能体之间的协同学习——即“群体强化”机制的探索——仍是一个充满挑战的研究方向。为突破这一瓶颈,来自加州大学圣地亚哥分校与英特尔的研究团队提出了一套通用多智能体强化学习框架PettingLLMs,为构建高效协作的智能体网络提供了创新解决方案。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
多智能体系统在医疗诊断、程序开发、科研辅助和具身智能等领域的应用中,已展现出远超单智能体的显著优势。不过,当前主流的强化学习算法(例如GRPO)均建立在单智能体假设之上,其核心机制是通过统一输入生成多组候选回答,并在组内进行相对优势评估。这种机制的有效性依赖于“共同prompt”的前提——即所有候选回答必须基于完全相同的上下文生成。但在多智能体多轮交互的实际场景中,不同智能体在各轮次接收到的prompt可能包含其他智能体的历史输出(例如编程任务中,某个智能体生成的代码可能被其他智能体用于单元测试),导致“共同prompt”假设被破坏,进而影响优势计算的公平性与训练效果。
针对这一问题,研究团队创新性地提出了基于贪心搜索的树状采样方法。该方法通过每轮为每个智能体生成K个备选分支,并优先选择当前奖励最高的智能体进行下一轮扩展,有效平衡了探索新策略与利用已知最优策略之间的矛盾。同时,每个智能体的奖励函数被设计为同时考虑角色专属奖励与全局任务奖励,确保智能体在提升协作能力的同时保持其功能独特性。
面对多智能体训练中“何时采用专属模型、何时采用共享模型”的策略选择难题,研究团队构建了异步分布式训练架构。该系统通过路由模块收集多智能体交互产生的轨迹数据,并根据训练模式需求进行差异化处理:在专属模型模式下,系统将智能体i的数据仅发送至模型资源池i的更新单元,实现独立模型进化;在共享模型模式下,系统将所有智能体的轨迹数据合并后发送至同一资源池,完成统一模型优化。
基于上述方法,研究团队开源了PettingLLMs框架。该框架支持不同模型与智能体间的灵活映射,允许每个智能体适配不同的LoRA参数配置。开发者只需定义任务特定的智能体交互逻辑与奖励函数,即可快速搭建多智能体训练环境。目前,框架已内置数学推理、代码生成、游戏对战等主流任务环境供直接调用。
实验结果表明,该框架在复杂任务中表现突出。在推箱子任务中,通过AT-GRPO算法训练的两个智能体将任务完成率从14%提升至96%;在路径规划任务中,完成率从47%提升至99.5%。在代码生成任务中,LiveCodeBench、APPS、CodeContests的准确率分别提升6.1%、4.2%和7.0%;数学推理任务中,AIME+24与AIME+25的准确率分别提升9.0%和17.9%。
消融实验进一步验证了框架设计的合理性。仅在单智能体环境中训练规划器或工具子角色时,指标虽从5.0%提升至11.0%/14.5%,但联合执行时的准确率仅为16.0%;而互换已训练角色的策略会导致准确率骤降至6.0%,证明不同智能体确实具备功能互补性与不可替代性。训练过程中智能体的学习回报持续上升,任务平均完成回合数稳步下降,表明协同效率随着训练进程显著提升。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
我把 Anthropic 的 Harness 工程思想做成了一个 Skill
用AI写代码,难在哪儿? 用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。 用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇
沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责
美国零售巨头拥抱AI新玩法:功能归我,风险归你? 最近有件事挺有意思,美国那边的大型零售商们,正铆足了劲把AI往购物流程里塞。但你猜怎么着?一旦AI捅了娄子,买单的却很可能变成了消费者自己。 这不,就在当地时间4月5号,外媒Futurism的一篇报道就点破了这个现象。企业们一边热火朝天地推广AI功能
小米物流大件“当日达”服务上线 50 城
小米物流大家电“当日达”实现全国50城覆盖,上午11点前下单最快当日送达 对于大家电配送时效长的普遍困扰,小米物流带来了全新的解决方案。最新消息显示,小米旗下大件商品的“当日达”服务范围已成功拓展至全国50座重点城市。除了北京、上海、广州、深圳、杭州、成都等一线与新一线核心城市外,此次升级还囊括了天
为什么现在很多人觉得 OpenClaw 不好用
当前开源版本的定位 你得明白,当前的开源版本,本质上更偏向于一个**开发者工具链**,而非一个即开即用的完整产品。它的核心组件非常明确: 一个基于 Node js 的运行环境 (runtime) 一个网关 (gateway) 插件与技能 (plugins skills) JSON 配置文件 命令
WorkBuddy工具
好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

