当前位置: 首页
业界动态
一周3.3k星微软Skills自我进化像训练神经网络一样训练技能

一周3.3k星微软Skills自我进化像训练神经网络一样训练技能

热心网友 时间:2026-06-01
转载

从大模型的提示词到智能体的 Skills,表面上看是进化了,但仔细琢磨一下,又感觉没完全进化。

现在做智能体应用,越来越多的人把时间花在写 CLAUDE.md、Codex 的 skill 文件,以及各种 Agent 的 system prompt 上。这事儿听起来挺高级,但实际操作起来,本质就是手工试错:写一版,跑几个任务看看效果,觉得不对再改,改完再跑。这个循环,和当年手调 prompt 有什么区别?无非是对象从几句话变成了一整份文档。

细想一下,这其实有点荒诞。我们原本的目标是让更智能的 AI 替我们干活,结果到头来,反而是我们在花大力气教 AI 该怎么干活。

不过,这个问题也许终于看到了终点。微软本周开源了一个叫 SkillOpt 的框架,思路很有意思——把 Agent 的技能文档当作“可训练参数”,在文本空间里做优化,让技能文档自己学会进化。

核心逻辑并不复杂:不去训练模型权重,而是专门训练那份用来指导 Agent 行为的自然语言文档。在涵盖 7 个目标模型、6 个基准测试、3 种执行环境(直接对话、Codex、Claude Code)的全部 52 个评测组合中,SkillOpt 训练出的技能文档均达到最优或并列最优。

Skills 也能优化训练

一句话概括 SkillOpt 的核心洞察:Agent 的技能文档,本质上就是它的“外部权重”。既然模型内部的权重可以用梯度下降来优化,那外部权重凭什么就不能有一套系统化的训练方法?

流程大致如下:冻结的目标模型使用当前技能执行任务,优化器模型则提出有边界的修改,最后通过保留的验证来决定候选是否成为新的当前技能。

训练循环:前向传播、反向传播、参数更新

传统深度学习的训练循环,大家都熟悉:前向传播算 loss,反向传播算梯度,再用梯度更新权重。SkillOpt 把这个逻辑搬到了文本空间,一一对应:

Rollout(前向传播):冻结的目标模型,拿着当前版本的技能文档去执行一批任务,完整记录下执行轨迹——包括消息、工具调用、验证反馈和最终得分。这一步产出的就是“证据”,相当于神经网络的前向传播结果。

Reflect(反向传播):一个独立的优化器模型,来分析这些执行轨迹。关键设计在于,失败案例和成功案例是分开反思的。失败的 minibatch 用来识别“哪些操作规则需要修正”,成功的则用来确认“哪些现有规则在起作用,不能动”。这一步,实际上就是在计算“文本空间的梯度”,告诉系统技能文档该往哪个方向调整。

Edit(参数更新):优化器模型根据反思结果,提出对技能文档的结构化编辑操作:添加新规则(add)、删除失效规则(delete)、替换有问题的规则(replace)。

Gate(验证门控):候选的新技能文档必须在一个 held-out 的验证集上再跑一遍,只有性能严格提升时才被接受。这一步是为了防止过拟合,确保每一次更新都是实打实的改进。

整个循环会跑多个 epoch,每个 epoch 内又有多个 step,节奏上和训练神经网络几乎完全一致。

文本学习率:防止灾难性遗忘

训练神经网络时,学习率设太大容易导致灾难性遗忘——学了新东西,旧的就忘了。SkillOpt 在文本空间遇到了完全一样的问题:一次编辑改动如果太大,很可能把之前学到的有效规则覆盖掉。

解决方案很直接,引入一个“文本学习率”(textual learning rate):每一步允许的编辑操作数量设个上限。论文中默认是 lr=4,也就是每步最多进行 4 个 add/delete/replace 操作。这个约束迫使优化器每次只做小幅调整,从而保持训练的稳定性。

消融实验也验证了这个设计的必要性:去掉学习率约束后,SearchQA 上的性能从 87.1% 滑到 84.6%,SpreadsheetBench 从 77.5% 降到 75.7%,LiveMath 从 61.3% 降到 57.3%,降幅都相当明显。

被拒绝编辑的缓冲区:负反馈记忆

另一个精巧的设计是 rejected-edit buffer。当一个编辑提案被验证门控拒绝时,它不会被简单丢掉,而是进入一个缓冲区。优化器在后续的反思阶段能看到这些“失败的尝试”,从而避免重复提出类似的无效编辑。

这相当于给优化器提供了负梯度信息:不仅知道该往哪个方向走,还知道哪些方向已经试过、走不通。消融实验证实了它的价值:去掉 rejected buffer 后,SpreadsheetBench 的性能从 77.5% 骤降到 72.9%。

慢更新与元技能:长期记忆机制

SkillOpt 还引入了两个跨 epoch 的记忆机制:

Slow Update:每个 epoch 结束时,对整个 epoch 内所有被接受的编辑做一次纵向对比分析,找出跨 step 的一致性模式,然后产出一轮更大范围的更新。这有点像深度学习中的学习率 warmup 或周期性大步更新。

Meta Skill:优化器自身也有一份“元技能”文档,记录它在优化过程中积累的经验——比如“对这个 benchmark,关注工具调用的格式比关注推理步骤更有效”。这份元技能在 epoch 间持续更新,让优化器本身也在不断进化。

关键在于,这两个机制只在训练时存在。部署的时候,目标模型只需要那份最终的 best_skill.md,既不需要优化器模型,也不需要记忆模块,推理时的额外开销为零。

52 项评测全面领先

主实验:7 个模型 × 6 个基准 × 3 种环境

SkillOpt 的评测覆盖面很广:

目标模型从 GPT-5.5、GPT-5.4、GPT-5.4-mini、GPT-5.4-nano、GPT-5.2,到 Qwen3.5-4B、Qwen3.6-35B-A3B,既有最强的闭源模型,也有 4B 参数的小模型。基准测试覆盖 6 种不同类型的任务:SearchQA(问答)、SpreadsheetBench(代码生成/电子表格操作)、OfficeQA(工具增强问答)、DocVQA(文档视觉问答)、LiveMathematicianBench(数学推理)、ALFWorld(具身智能体)。执行环境则包括直接对话、OpenAI Codex 和 Anthropic Claude Code 三种主流框架。

在全部 52 个(模型 × 基准 × 环境)评测组合中,SkillOpt 全部达到最优或并列最优。

几个值得注意的数据:

  • GPT-5.5 直接对话模式:平均提升 +23.5 分,其中 SpreadsheetBench 提升 38.9 分,OfficeQA 提升 39.0 分
  • GPT-5.4-nano(最小模型):平均提升 +24.9 分,DocVQA 提升 49.4 分,ALFWorld 提升 35.1 分
  • GPT-5.5 + Codex 环境:SpreadsheetBench 提升 57.5 分
  • GPT-5.5 + Claude Code 环境:SpreadsheetBench 提升 58.3 分

有趣的是,小模型的提升幅度反而更大。这说明技能文档对能力较弱的模型帮助更显著。一份好的操作手册,对新手的价值远大于对专家——这个直觉放在 AI Agent 身上同样成立。

对比实验:碾压所有基线方法

SkillOpt 对比了 6 种基线方法:无技能(no skill)、人工编写技能(human skill)、LLM 一次性生成技能(LLM skill)、Trace2Skill、TextGrad、GEPA。

在每一个 benchmark 上,SkillOpt 都超过了最强的基线方法:

  • SearchQA:超过最强基线 +1.9 分
  • SpreadsheetBench:超过最强基线 +4.4 分
  • OfficeQA:超过最强基线 +4.1 分
  • DocVQA:超过最强基线 +1.7 分
  • LiveMath:超过最强基线 +9.2 分
  • ALFWorld:超过最强基线 +8.9 分

值得注意的是,TextGrad 和 GEPA 都是已有的文本优化方法。SkillOpt 对它们的优势说明,系统化的训练循环设计——学习率、验证门控、负反馈缓冲——确实比松散的自我修正更有效。

迁移实验:一次训练,多处部署

SkillOpt 训练出的技能文档表现出很强的迁移能力:

  • 跨模型迁移:在 GPT-5.4 上训练的 LiveMath 技能,直接迁移到 GPT-5.4-nano 上使用,提升 15.2 分。不需要针对小模型重新训练。
  • 跨环境迁移:在 Codex 环境中训练的 SpreadsheetBench 技能,直接迁移到 Claude Code 环境中使用,提升 31.8 分。这意味着,你在一个 Agent 框架里优化好的技能文档,换到另一个框架里依然有效。
  • 自优化:即使用 GPT-5.4-nano 同时作为目标模型和优化器模型(自己优化自己),SpreadsheetBench 上仍然提升了 10.4 分。这说明 SkillOpt 的训练循环本身提供了足够的结构化约束,即使优化器不比目标模型更强,也能发现有效的改进方向。
  • 部署极简:最终部署时只需要一个 best_skill.md 文件。优化器模型、记忆模块、额外的推理开销,统统不需要。

技能进化的可视化:从失败中学习

论文中展示了一个 ALFWorld 任务上的完整训练过程,目标模型是 GPT-5.4-mini,优化器是 GPT-5.5。

初始技能文档是一份简洁的 ALFWorld 操作指南。经过 4 个训练 step 后,技能文档中新增了这些规则:

  • “将任何通用的目标容器实例视为有效”
  • “维护一个严格编号的已搜索集合,不重复检查已观察过的位置”
  • “在某一类位置连续多次未命中后,扩大搜索范围”

这些规则,都是从失败的轨迹中自动提炼出来的。比如第三条,就源自 Agent 在某些任务中反复搜索同一类位置却找不到目标物品的失败经验。优化器观察到这个模式后,提出了“扩大搜索范围”的规则。

最终效果:ALFWorld 测试集的 hard 难度从 70.9% 提升到了 85.8%。

整个过程中,Step 3 的编辑一度导致验证集性能下降,但被 slow update 机制救回。Step 4 的训练集得分更高,但验证集没有提升,因此被门控拒绝。这种“提出假设、验证、接受或拒绝”的循环,和人类做科研的方法论如出一辙。

SkillOpt 告诉我们,智能体的一切,都是可以自我学习的。人类在 AI 工作流中的角色,可能又要往后退一步了。未来,我们会把更多的认知负担转移给机器。

来源:https://36kr.com/p/3832748874934148

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
联发科预热Computex 2026 黄仁勋或将正式发布NVIDIA N1芯片平台

联发科预热Computex 2026 黄仁勋或将正式发布NVIDIA N1芯片平台

2026年5月26日,联发科发布Computex 2026预热视频,视频画面中巧妙隐藏了一台笔记本电脑,展位页面更特别标注“全新笔记本PC体验”。这一举动瞬间引爆业内对传闻中NVIDIA N1平台的高度期待。事实上,联发科在笔记本领域早已布局多年。其Kompanio平台已广泛应用于多款ChromeO

时间:2026-06-01 11:13
森海塞尔发布MOMENTUM 5无线耳机主动降噪性能提升三倍

森海塞尔发布MOMENTUM 5无线耳机主动降噪性能提升三倍

最新消息:2026年5月26日,森海塞尔正式发布了MOMENTUM 5 Wireless头戴式降噪耳机。根据官方数据,这款新一代产品的主动降噪性能得到大幅提升,最高提升幅度达到三倍。 MOMENTUM系列在森海塞尔的产品线中一直是高端头戴式耳机的标杆——无论有线还是无线版本,音质与做工都备受赞誉。到

时间:2026-06-01 11:12
TRYX全球首款全息悬浮一体水冷HOLO 360发布 散热280W

TRYX全球首款全息悬浮一体水冷HOLO 360发布 散热280W

2026年5月26日,TRYX正式发布了全球首款真正具备全息视觉效果的一体式水冷散热器——HOLO 360。它并非那些仅在屏幕前加装透镜的“伪全息”,而是依托多层介质膜分光镜技术,让动态影像悬浮于冷头内部,呈现出立体视觉效果。冷头内没有传统屏幕,影像直接悬空显示,视觉冲击力与传统平面显示相比可谓天壤

时间:2026-06-01 11:11
横尾太郎神谷英树盛赞韩国游戏技术领先日本

横尾太郎神谷英树盛赞韩国游戏技术领先日本

近日,日本游戏界两位重量级人物横尾太郎与神谷英树罕见地同时发声,直言韩国游戏开发者的技术实力已不容小觑,甚至在多个领域实现了对日本的超越。若在十年前,这样的评价或许会遭到质疑,但如今这已成为业界公认的事实。 这一对话发生在2025年韩国釜山举办的G-CON活动现场。当时主持人邀请这两位业界大佬为韩国

时间:2026-06-01 11:10
领克10赛影蓝实车到店光影设计越级空间816km续航理性豪华之选

领克10赛影蓝实车到店光影设计越级空间816km续航理性豪华之选

浏览过几十条预售视频,翻阅过上百张渲染图,直到上周在本地展厅亲眼见到那抹赛影蓝——确实令人印象深刻。车头低伏,腰线凌厉,阳光下的它宛如一头静静蓄势的猎豹。这个蓝色并非单层喷涂,而是青蓝打底、湖蓝过渡、再缀上金属微光的三层渐变;侧光划过车身,整辆车仿佛光影流动的活体雕塑。原来,赛影蓝不仅是一种颜色命名

时间:2026-06-01 11:10
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程