当前位置: 首页
AI资讯
英伟达开源AI框架Polar让Codex性能提升近600%

英伟达开源AI框架Polar让Codex性能提升近600%

热心网友 时间:2026-05-28
转载

最近,英伟达的研究团队放出了一个开源新框架——Polar,在AI智能体开发圈里引起了不小的关注。这个框架的核心目标很明确:让现有的代码智能体(比如我们熟知的Codex、Claude Code、Qwen Code)能够无缝接入一种名为“广义相对策略优化”(GRPO)的训练方法,而且整个过程不会干扰智能体原有的工具调用、上下文管理这些核心工作流。简单说,就是给现有的“老伙计”们装上一个更强大的新引擎。

image.png

那么,GRPO到底是什么?它本质上是一种强化学习优化技术。你可以把它理解为一个聪明的“教练”,通过“奖励”信号来不断调整模型的决策策略,帮助它在需要连续做出多步判断的复杂任务中,找到更优的行动路径。在英伟达的这项研究中,GRPO被专门用来训练代码智能体,让模型在实际的编码、调试、提交补丁这一长串流程中,能够自我迭代,越做越好。

这背后反映了一个明显的趋势:智能体的强化学习训练,正从解决单一、独立的步骤,转向攻克那些冗长而复杂的流程性任务。比如,维护一个代码仓库、在浏览器中执行系列操作,或者与操作系统进行深度交互。这些任务高度依赖现有的执行框架,涉及多轮工具调用和复杂的上下文管理。如果硬要把这些框架改写成传统强化学习所需的标准环境接口,不仅工程难度巨大,还很容易丢失那些对训练至关重要的细微信号。

英伟达的Polar框架选择了一条更巧妙的路径。它没有去“重造轮子”,碘伏现有的智能体框架,而是选择在模型API的边界上“安置”智能体。这样一来,原有的运行逻辑得以完整保留。Polar相当于在执行框架和推理服务器之间扮演了一个“中间人”和“记录员”的角色。它兼容多种请求风格,能够悄无声息地捕捉关键的执行数据,并将其转化为可用于GRPO训练的有效信息。

从系统架构上看,Polar集成了任务提交、会话调度和状态持久化等一系列功能。通过对初始化、运行和后处理流程的精心优化,整个训练效率得到了显著提升。实验数据最有说服力:采用Polar框架结合GRPO方法训练的智能体,在权威的SWE-Bench Verified测试集上表现惊人。以Codex为例,其pass@1分数从原来的3.8%飙升至26.4%,提升幅度高达594.74%。

除了性能的飞跃,效率的提升同样亮眼。使用该框架后,训练时间缩短了约5.39倍,GPU的平均利用率也得到了显著改善。这意味着,未来开发更强大的智能体,不仅效果更好,所需的成本和等待时间也将大幅减少。这无疑为下一代AI智能体的训练铺平了一条更高效的道路。

来源:https://news.aibase.com/zh/news/28410

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
修Bug被Gemini追删代码致宕机修复报告现编

修Bug被Gemini追删代码致宕机修复报告现编

最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修

时间:2026-05-28 22:58
Notion AI运营指南:自动归纳用户反馈

Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

时间:2026-05-28 22:54
AI给出的答案为何总不符期望?原因解析

AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

时间:2026-05-28 22:54
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

时间:2026-05-28 22:53
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们

时间:2026-05-28 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程