当前位置: 首页
科技数码
上海AI实验室开源Agents-A1,35B智能体超越万亿参数模型?

上海AI实验室开源Agents-A1,35B智能体超越万亿参数模型?

热心网友 时间:2026-07-03
转载

在AI Agent面临的各种挑战中,长程任务(Long-Horizon)堪称最难啃的骨头。软件工程、科学研究、复杂决策等场景,要求Agent在长时间跨度内连续决策,一旦某步出错,后续路径就可能全盘偏离。过去常见的做法是依靠更大模型,通过参数规模硬扛;或者尝试扩展Agent Horizon,但基础设施跟不上,各异的异构能力也难以形成合力。

不过,上海AI Lab团队最新发布的Agents-A1模型,提供了一条新路径——不堆参数,而是通过扩展Agent Horizon,用更小模型逼近万亿参数级模型的长程表现。这是一个35B参数的MoE Agent模型。

论文地址:https://arxiv.org/abs/2606.30616

实验结果显示,在多步搜索、科学研究和长指令遵循等任务上,Agents-A1的部分表现已经超越某些万亿参数级模型。在相同规模的35B模型里,它稳稳占据第一梯队。

图|Agents-A1 的基准测试表现。

不过,研究团队也坦诚指出,Agents-A1在工程类任务上与前沿大模型仍有差距。这项研究的核心价值在于,它找到了一条更经济的路径来开发强大的AI Agent:教会模型养成更持久、更经得起验证的工作习惯,而非一味扩大参数规模。

Agent-A1 是如何设计的?

Agents-A1是一个面向长程任务的35B参数MoE Agent模型,其设计思路十分清晰——依托一套长程知识-动作基础设施,通过三阶段训练,将多种Agent能力整合到同一个模型。简单来说,先进行全领域SFT,再专门训练各领域的“教师”模型,最后通过多教师on-policy distillation(OPD)完成统一。

1. 全领域监督微调(SFT)
此阶段目标是打好基础,让模型具备通用Agent能力。团队使用多领域、多任务的高质量长程轨迹数据进行训练,重点增强模型在长上下文条件下的理解、推理和指令遵循能力。训练中采用sample packing技术,将多个较短样本拼接到一个序列,配合注意力掩码防止串扰,既减少了padding开销,又提升了GPU利用率。

2. 领域级教师模型训练
团队将模型能力拆解为搜索、科学推理、指令遵循和工具调用四大专长,并分别设计了训练方案。

  • 搜索教师:采用“先SFT、后RL”两阶段训练,结合GRPO提升复杂问题拆解、多跳搜索和工具协同能力。目标是保证正确率的同时,减少不必要的冗余搜索。
  • 科学教师:通过两阶段SFT,先强化科学推导能力,再通过工具增强轨迹训练外部交互和证据整合能力。关键是让模型学会何时借助外部工具,并整合检索或计算得到的证据。
  • 指令遵循教师:采用两阶段RL和GRPO训练。第一阶段提升对格式、长度、关键词和语言等细粒度约束的满足能力;第二阶段则强化长上下文ICL中的证据定位、信息整合和上下文规则遵循能力。
  • 工具调用教师:同样使用工具SFT与工具RL的两阶段优化,重点学习何时调用工具、如何纠错以及何时结束任务。结合结果奖励、过程奖励和高质量困难任务复用,让模型更高效地使用工具。

3. 统一模型阶段
团队先收集学生模型自己生成的轨迹,再由对应领域的教师模型来打分指导。这与离线模仿不同,教师直接评估学生自身产生的轨迹。最终,模型通过按领域路由的蒸馏和显著词汇对齐,既保留了全领域SFT的广泛能力,又将各领域教师的专长收归己用。

图|Agents-A1 三阶段训练流程概览。

为支撑这一整套训练流程,团队还构建了以知识-动作图KAG为核心的基础设施,并通过自博弈不断扩展高质量的长轨迹数据。这样训练样本不仅包含问题和答案,也完整保留了工具使用的整个过程和验证步骤。

图| Agents-A1 的知识-动作基础设施概览。

实验结果

总体来看,Agents-A1在长程搜索、指令遵循和科学推理等任务上的表现相当亮眼。不仅在同类35B模型中一骑绝尘,部分基准上甚至超越了万亿参数级模型。具体来看:

图|Qwen3.5-35B-A3B、Agents-A1-SFT 和 Agents-A1 的性能对比。

1. 全领域SFT
Agents-A1-SFT在长程搜索、工程任务和科学研究上提升明显,但在通用Agent任务、指令遵循和HLE上却出现回落。这说明仅靠全领域SFT,不足以解决不同推理模式之间的冲突。

2. 领域教师模型训练
搜索增强教师:在四个基准上均稳定优于Qwen3.5-35B-A3B。尤其在通用AI助手基准GAIA上提升最为显著,从59.8跃升至95.1。

图|Qwen3.5-35B-A3B 与搜索增强教师模型的性能对比。

科学增强教师:两阶段SFT显著增强了科学推理和工具交互能力。相比基线,科学增强教师在各项科学任务上整体更优,尤其在FS-R上从2.5大幅提升至54.3。

图|Qwen3.5-35B-A3B 与科学增强教师模型的性能对比。

指令遵循与长上下文学习:强化学习显著提升了模型的长上下文理解、指令遵循以及对可验证指令约束的泛化能力。总体上RL增强教师在相关评测中优于Qwen3.5-35B-A3B,其中LongBench V2和IFBench提升尤为突出。

图|Qwen3.5-35B-A3B 与 RL 增强教师模型在 LongBench V2、IFBench 和 IFEval 上的评测结果。

工具调用:显式的工具使用监督与强化学习显著提升了模型的工具调用能力,特别是在需要多轮、结构化交互的任务中效果明显。工具增强模型在τ²-Bench和VitaBench上都取得了显著进步。

图|Qwen3.5-35B-A3B 与工具增强 RL 教师模型在 τ²-Bench 和 VitaBench 上的性能评测结果。

统一模型实验:结果显示,多教师OPD比单纯的全领域SFT更能缓解不同任务推理模式之间的冲突。它在保留广泛能力覆盖的同时,将各领域专长整合得更好,进一步提升了长程任务表现。

图|Agents-A1 与 35B / 1T 级模型的对比。

除了标准基准测试,团队还用两个案例展示了Agents-A1的长程Agent能力。在鲸鱼叫声检测任务中,Agents-A1能在较长的时间跨度内持续优化完整的机器学习流程。在一次12小时运行中,模型从简单的CNN基线出发,将验证集AUC从0.58一路提升至0.9935。这意味着Agents-A1已超越局部调参,具备了在多轮迭代中持续改进方案、提升泛化能力的能力。

图|Agents-A1 在 ICML 2013 Whale Challenge 上一次 12 小时运行中的优化轨迹。

Agents-A1在地球科学任务中也展现出了端到端分析能力。以2008年热带气旋Nargis为例,模型能够自动识别数据源,完成数据提取、清洗、派生指标计算、可视化和结果综合,形成一个从规划到报告生成的多阶段闭环,并且较高保真度地重建了风暴的演化过程。

图|由 Agents-A1 生成的 2008 年热带气旋(Nargis)的路径。

不足和未来方向

尽管Agents-A1在多项长程任务上表现不俗,但短板也存在。首先,模型在“先规划再推理”、“先反思再行动”、长上下文关键信息总结以及重要历史信息识别等基础原子能力上,仍有提升空间。这些能力直接决定了长程任务中的稳定性、目标一致性和执行效率。未来需要重点强化这些基础能力,并以此进一步提升Agents-A1的长过程求解能力。

其次,在机器学习工程任务上,Agents-A1与更大模型之间的差距依然明显。如何增强模型在完整工程流程中的目标一致性、决策记忆和试验效率,是一个重要的研究方向。

最后,经过OPD训练的统一学生模型,并不能在所有领域都稳定超过对应的教师模型。如何在模型统一性与领域专长之间找到更好的平衡点,是后续需要继续解决的问题。

更多技术细节,详见原论文。

来源:https://www.163.com/dy/article/L0R421E70531E3NX.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

时间:2026-07-03 12:53
苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

时间:2026-07-03 12:53
苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

时间:2026-07-03 12:53
纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

时间:2026-07-03 12:53
南航国际创新港一期交付 四大专业园区打造空天产业强磁场

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个

时间:2026-07-03 12:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜