UCSD与英特尔联手推出PettingLLMs框架，多智能体强化学习性能提升90%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

UCSD与英特尔联手推出PettingLLMs框架，多智能体强化学习性能提升90%

热心网友时间：2025-11-09

转载

在人工智能快速发展的当下，大语言模型驱动的新型多智能体系统正展现出前所未有的潜力。然而，现有训练框架多专注于单智能体场景的优化，对于多智能体之间的协同学习——即“群体强化”机制的探索——仍是一个充满挑战的研究方向。为突破这一瓶颈，来自加州大学圣地亚哥分校与英特尔的研究团队提出了一套通用多智能体强化学习框架PettingLLMs，为构建高效协作的智能体网络提供了创新解决方案。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

多智能体系统在医疗诊断、程序开发、科研辅助和具身智能等领域的应用中，已展现出远超单智能体的显著优势。不过，当前主流的强化学习算法（例如GRPO）均建立在单智能体假设之上，其核心机制是通过统一输入生成多组候选回答，并在组内进行相对优势评估。这种机制的有效性依赖于“共同prompt”的前提——即所有候选回答必须基于完全相同的上下文生成。但在多智能体多轮交互的实际场景中，不同智能体在各轮次接收到的prompt可能包含其他智能体的历史输出（例如编程任务中，某个智能体生成的代码可能被其他智能体用于单元测试），导致“共同prompt”假设被破坏，进而影响优势计算的公平性与训练效果。

针对这一问题，研究团队创新性地提出了基于贪心搜索的树状采样方法。该方法通过每轮为每个智能体生成K个备选分支，并优先选择当前奖励最高的智能体进行下一轮扩展，有效平衡了探索新策略与利用已知最优策略之间的矛盾。同时，每个智能体的奖励函数被设计为同时考虑角色专属奖励与全局任务奖励，确保智能体在提升协作能力的同时保持其功能独特性。

面对多智能体训练中“何时采用专属模型、何时采用共享模型”的策略选择难题，研究团队构建了异步分布式训练架构。该系统通过路由模块收集多智能体交互产生的轨迹数据，并根据训练模式需求进行差异化处理：在专属模型模式下，系统将智能体i的数据仅发送至模型资源池i的更新单元，实现独立模型进化；在共享模型模式下，系统将所有智能体的轨迹数据合并后发送至同一资源池，完成统一模型优化。

基于上述方法，研究团队开源了PettingLLMs框架。该框架支持不同模型与智能体间的灵活映射，允许每个智能体适配不同的LoRA参数配置。开发者只需定义任务特定的智能体交互逻辑与奖励函数，即可快速搭建多智能体训练环境。目前，框架已内置数学推理、代码生成、游戏对战等主流任务环境供直接调用。

实验结果表明，该框架在复杂任务中表现突出。在推箱子任务中，通过AT-GRPO算法训练的两个智能体将任务完成率从14%提升至96%；在路径规划任务中，完成率从47%提升至99.5%。在代码生成任务中，LiveCodeBench、APPS、CodeContests的准确率分别提升6.1%、4.2%和7.0%；数学推理任务中，AIME+24与AIME+25的准确率分别提升9.0%和17.9%。

消融实验进一步验证了框架设计的合理性。仅在单智能体环境中训练规划器或工具子角色时，指标虽从5.0%提升至11.0%/14.5%，但联合执行时的准确率仅为16.0%；而互换已训练角色的策略会导致准确率骤降至6.0%，证明不同智能体确实具备功能互补性与不可替代性。训练过程中智能体的学习回报持续上升，任务平均完成回合数稳步下降，表明协同效率随着训练进程显著提升。

来源:https://www.itbear.com.cn/html/2025-11/1014507.html

上一篇：果链企业跨界机器人：从iPhone制造到机器狗新赛道

下一篇：乌镇峰会张朝阳谈AI：辅助探索但人类需独立思考拒依赖