数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

上海AI实验室开源Agents-A1，35B智能体超越万亿参数模型？

上海AI实验室开源Agents-A1，35B智能体超越万亿参数模型？

热心网友时间：2026-07-03

转载

在AI Agent面临的各种挑战中，长程任务（Long-Horizon）堪称最难啃的骨头。软件工程、科学研究、复杂决策等场景，要求Agent在长时间跨度内连续决策，一旦某步出错，后续路径就可能全盘偏离。过去常见的做法是依靠更大模型，通过参数规模硬扛；或者尝试扩展Agent Horizon，但基础设施跟不上，各异的异构能力也难以形成合力。

不过，上海AI Lab团队最新发布的Agents-A1模型，提供了一条新路径——不堆参数，而是通过扩展Agent Horizon，用更小模型逼近万亿参数级模型的长程表现。这是一个35B参数的MoE Agent模型。

论文地址：https://arxiv.org/abs/2606.30616

实验结果显示，在多步搜索、科学研究和长指令遵循等任务上，Agents-A1的部分表现已经超越某些万亿参数级模型。在相同规模的35B模型里，它稳稳占据第一梯队。

图｜Agents-A1 的基准测试表现。

不过，研究团队也坦诚指出，Agents-A1在工程类任务上与前沿大模型仍有差距。这项研究的核心价值在于，它找到了一条更经济的路径来开发强大的AI Agent：教会模型养成更持久、更经得起验证的工作习惯，而非一味扩大参数规模。

Agent-A1 是如何设计的？

Agents-A1是一个面向长程任务的35B参数MoE Agent模型，其设计思路十分清晰——依托一套长程知识-动作基础设施，通过三阶段训练，将多种Agent能力整合到同一个模型。简单来说，先进行全领域SFT，再专门训练各领域的“教师”模型，最后通过多教师on-policy distillation（OPD）完成统一。

1. 全领域监督微调（SFT）
此阶段目标是打好基础，让模型具备通用Agent能力。团队使用多领域、多任务的高质量长程轨迹数据进行训练，重点增强模型在长上下文条件下的理解、推理和指令遵循能力。训练中采用sample packing技术，将多个较短样本拼接到一个序列，配合注意力掩码防止串扰，既减少了padding开销，又提升了GPU利用率。

2. 领域级教师模型训练
团队将模型能力拆解为搜索、科学推理、指令遵循和工具调用四大专长，并分别设计了训练方案。

搜索教师：采用“先SFT、后RL”两阶段训练，结合GRPO提升复杂问题拆解、多跳搜索和工具协同能力。目标是保证正确率的同时，减少不必要的冗余搜索。
科学教师：通过两阶段SFT，先强化科学推导能力，再通过工具增强轨迹训练外部交互和证据整合能力。关键是让模型学会何时借助外部工具，并整合检索或计算得到的证据。
指令遵循教师：采用两阶段RL和GRPO训练。第一阶段提升对格式、长度、关键词和语言等细粒度约束的满足能力；第二阶段则强化长上下文ICL中的证据定位、信息整合和上下文规则遵循能力。
工具调用教师：同样使用工具SFT与工具RL的两阶段优化，重点学习何时调用工具、如何纠错以及何时结束任务。结合结果奖励、过程奖励和高质量困难任务复用，让模型更高效地使用工具。

3. 统一模型阶段
团队先收集学生模型自己生成的轨迹，再由对应领域的教师模型来打分指导。这与离线模仿不同，教师直接评估学生自身产生的轨迹。最终，模型通过按领域路由的蒸馏和显著词汇对齐，既保留了全领域SFT的广泛能力，又将各领域教师的专长收归己用。

图｜Agents-A1 三阶段训练流程概览。

为支撑这一整套训练流程，团队还构建了以知识-动作图KAG为核心的基础设施，并通过自博弈不断扩展高质量的长轨迹数据。这样训练样本不仅包含问题和答案，也完整保留了工具使用的整个过程和验证步骤。

图｜ Agents-A1 的知识-动作基础设施概览。

实验结果

总体来看，Agents-A1在长程搜索、指令遵循和科学推理等任务上的表现相当亮眼。不仅在同类35B模型中一骑绝尘，部分基准上甚至超越了万亿参数级模型。具体来看：

图｜Qwen3.5-35B-A3B、Agents-A1-SFT 和 Agents-A1 的性能对比。

1. 全领域SFT
Agents-A1-SFT在长程搜索、工程任务和科学研究上提升明显，但在通用Agent任务、指令遵循和HLE上却出现回落。这说明仅靠全领域SFT，不足以解决不同推理模式之间的冲突。

2. 领域教师模型训练
搜索增强教师：在四个基准上均稳定优于Qwen3.5-35B-A3B。尤其在通用AI助手基准GAIA上提升最为显著，从59.8跃升至95.1。

图｜Qwen3.5-35B-A3B 与搜索增强教师模型的性能对比。

科学增强教师：两阶段SFT显著增强了科学推理和工具交互能力。相比基线，科学增强教师在各项科学任务上整体更优，尤其在FS-R上从2.5大幅提升至54.3。

图｜Qwen3.5-35B-A3B 与科学增强教师模型的性能对比。

指令遵循与长上下文学习：强化学习显著提升了模型的长上下文理解、指令遵循以及对可验证指令约束的泛化能力。总体上RL增强教师在相关评测中优于Qwen3.5-35B-A3B，其中LongBench V2和IFBench提升尤为突出。

图｜Qwen3.5-35B-A3B 与 RL 增强教师模型在 LongBench V2、IFBench 和 IFEval 上的评测结果。

工具调用：显式的工具使用监督与强化学习显著提升了模型的工具调用能力，特别是在需要多轮、结构化交互的任务中效果明显。工具增强模型在τ²-Bench和VitaBench上都取得了显著进步。

图｜Qwen3.5-35B-A3B 与工具增强 RL 教师模型在 τ²-Bench 和 VitaBench 上的性能评测结果。

统一模型实验：结果显示，多教师OPD比单纯的全领域SFT更能缓解不同任务推理模式之间的冲突。它在保留广泛能力覆盖的同时，将各领域专长整合得更好，进一步提升了长程任务表现。

图｜Agents-A1 与 35B / 1T 级模型的对比。

除了标准基准测试，团队还用两个案例展示了Agents-A1的长程Agent能力。在鲸鱼叫声检测任务中，Agents-A1能在较长的时间跨度内持续优化完整的机器学习流程。在一次12小时运行中，模型从简单的CNN基线出发，将验证集AUC从0.58一路提升至0.9935。这意味着Agents-A1已超越局部调参，具备了在多轮迭代中持续改进方案、提升泛化能力的能力。

图｜Agents-A1 在 ICML 2013 Whale Challenge 上一次 12 小时运行中的优化轨迹。

Agents-A1在地球科学任务中也展现出了端到端分析能力。以2008年热带气旋Nargis为例，模型能够自动识别数据源，完成数据提取、清洗、派生指标计算、可视化和结果综合，形成一个从规划到报告生成的多阶段闭环，并且较高保真度地重建了风暴的演化过程。

图｜由 Agents-A1 生成的 2008 年热带气旋（Nargis）的路径。

不足和未来方向

尽管Agents-A1在多项长程任务上表现不俗，但短板也存在。首先，模型在“先规划再推理”、“先反思再行动”、长上下文关键信息总结以及重要历史信息识别等基础原子能力上，仍有提升空间。这些能力直接决定了长程任务中的稳定性、目标一致性和执行效率。未来需要重点强化这些基础能力，并以此进一步提升Agents-A1的长过程求解能力。

其次，在机器学习工程任务上，Agents-A1与更大模型之间的差距依然明显。如何增强模型在完整工程流程中的目标一致性、决策记忆和试验效率，是一个重要的研究方向。

最后，经过OPD训练的统一学生模型，并不能在所有领域都稳定超过对应的教师模型。如何在模型统一性与领域专长之间找到更好的平衡点，是后续需要继续解决的问题。

更多技术细节，详见原论文。

来源:https://www.163.com/dy/article/L0R421E70531E3NX.html

上一篇：马斯克晒Optimus团队合照加速特斯拉人形机器人量产

下一篇：一家初创公司突破AI重要瓶颈

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售，支持4K165Hz与FHD520Hz双模切换，定价1888元。采用FastIPS面板，97%DCI-P3色域，配备升降支架及双HDMI2 1和双DP1 4接口。

时间：2026-07-03 12:53

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年，DRAM与NAND闪存的供应持续紧张及价格不断攀升，正逐步传导至终端消费市场。可以预见，下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价，最终连苹果也不得不跟进，宣布提升iPad、Mac及家居设备的价格，以应对存储成本的快速上涨。 TrendForce分析指出，苹果全面

时间：2026-07-03 12:53

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz，不支持5G毫米波。因此，美版iPhone18Pro继续采用高通基带方案以支持毫米波，而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中，用户峰值速率可能显著低于美版用户。

时间：2026-07-03 12:53

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日，公司正式对外发布了两款自主研发的全新产品：一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达，另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看，此次发布直指气象监测与灾害预警领域的技术制高点。先来看这款S波段雷达

时间：2026-07-03 12:53

南航国际创新港一期交付四大专业园区打造空天产业强磁场

南航国际创新港一期交付四大专业园区打造空天产业强磁场

近日，南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用，成功串联起高校科研能量、地方产业载体与市场创新主体，为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链，提供了坚实的物理支撑。该创新港一期位于六合区雄州街道，分为3号和4号两个

时间：2026-07-03 12:52

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

灰度：比特币腰斩后已近本轮周期底部

女股神逆市抄底7500万美元无视Circle暴跌40%

乌兹别克斯坦加密挖矿特区详解：税收优惠政策与投资机遇

MOVR币与GLMR币区别解析波卡生态中Moonriver和Moonbeam关系详解

UFR币购买全攻略：新手入门指南与投资前景解析

欧易个人账号身份认证流程及常见问题解答

特朗普延长美伊停火协议正式和平协议前景渺茫

CZ宠物狗迷因币Broccoli 20分钟爆赚650万美元

年新手购买比特币避坑指南及注意事项

LGCY币未来价格走势分析深度解读LGCY币投资价值与前景

灰度：比特币腰斩后已近本轮周期底部

女股神逆市抄底7500万美元无视Circle暴跌40%

乌兹别克斯坦加密挖矿特区详解：税收优惠政策与投资机遇

MOVR币与GLMR币区别解析波卡生态中Moonriver和Moonbeam关系详解

UFR币购买全攻略：新手入门指南与投资前景解析

欧易个人账号身份认证流程及常见问题解答

特朗普延长美伊停火协议正式和平协议前景渺茫

CZ宠物狗迷因币Broccoli 20分钟爆赚650万美元

年新手购买比特币避坑指南及注意事项

LGCY币未来价格走势分析深度解读LGCY币投资价值与前景

灰度：比特币腰斩后已近本轮周期底部

女股神逆市抄底7500万美元无视Circle暴跌40%

乌兹别克斯坦加密挖矿特区详解：税收优惠政策与投资机遇

MOVR币与GLMR币区别解析波卡生态中Moonriver和Moonbeam关系详解

UFR币购买全攻略：新手入门指南与投资前景解析

欧易个人账号身份认证流程及常见问题解答

特朗普延长美伊停火协议正式和平协议前景渺茫

CZ宠物狗迷因币Broccoli 20分钟爆赚650万美元

年新手购买比特币避坑指南及注意事项

LGCY币未来价格走势分析深度解读LGCY币投资价值与前景

相关攻略

相关攻略

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

2026-07-03 12:53

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

2026-07-03 12:53

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

2026-07-03 12:53

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

2026-07-03 12:53

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

南航国际创新港一期交付四大专业园区打造空天产业强磁场

2026-07-03 12:52

南航国际创新港一期交付四大专业园区打造空天产业强磁场

美股半导体芯片股盘前出现集体下跌行情

2026-07-03 12:52

美股半导体芯片股盘前出现集体下跌行情

诺兰《奥德赛》终极中字预告每帧均为IMAX胶片拍摄

2026-07-03 12:52

诺兰《奥德赛》终极中字预告每帧均为IMAX胶片拍摄

华硕ROG新音频硬件产品曝光或即将发布

2026-07-03 12:52

华硕ROG新音频硬件产品曝光或即将发布

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

光与影33号远征队全收集标注地图完整版

光与影33号远征队全收集标注地图完整版发布于 2026-07-03

鸣潮丽贝卡声骸套装选择推荐

鸣潮丽贝卡声骸套装选择推荐发布于 2026-07-03

鸣潮丽贝卡武器选择攻略

鸣潮丽贝卡武器选择攻略发布于 2026-07-03

鸣潮丽贝卡值得抽取吗

鸣潮丽贝卡值得抽取吗发布于 2026-07-03

机器人角斗场手机版弓箭挑战玩法攻略

机器人角斗场手机版弓箭挑战玩法攻略发布于 2026-07-03

梦幻西游落宝金钱有什么用效果详细解析

梦幻西游落宝金钱有什么用效果详细解析发布于 2026-07-03

年男生女生互动小游戏推荐，增进感情精选合集

年男生女生互动小游戏推荐，增进感情精选合集发布于 2026-07-03

愤怒的小鸟经典归来与耐玩归来冠军小鸟玩法教程

愤怒的小鸟经典归来与耐玩归来冠军小鸟玩法教程发布于 2026-07-03

Win11频繁断网提示默认网关不可用怎么办

Win11频繁断网提示默认网关不可用怎么办发布于 2026-07-03

Mac如何取消正在进行的系统备份任务

Mac如何取消正在进行的系统备份任务发布于 2026-07-03

电脑显示器刷新率锁死60Hz无法调整的解决方法

电脑显示器刷新率锁死60Hz无法调整的解决方法发布于 2026-07-03

Linux系统下Systemd服务管理从零开始方法步骤详解完整教程

Linux系统下Systemd服务管理从零开始方法步骤详解完整教程发布于 2026-07-03

AIDA64压力测试结果查看教程

AIDA64压力测试结果查看教程发布于 2026-07-03

Camtasia电脑录屏没有声音的解决方法与步骤详解

Camtasia电脑录屏没有声音的解决方法与步骤详解发布于 2026-07-03

翻译狗翻译时关闭广告弹窗的设置方法

翻译狗翻译时关闭广告弹窗的设置方法发布于 2026-07-03

亿图图示流程图插入Word文档详细步骤

亿图图示流程图插入Word文档详细步骤发布于 2026-07-03

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集