当前位置: 首页
AI
企业AI智能体强化:OpenAI最新微调实践详解

企业AI智能体强化:OpenAI最新微调实践详解

热心网友 时间:2025-12-24
转载

在2025年举行的QCon+AI NYC大会上,OpenAI的研究员Will Hang与Wenjie Zi联袂登场,带来了一场关于企业级智能体优化策略的深度探讨。他们重点介绍了一种名为Agent RFT的创新方法,这是一种专门为工具使用型智能体设计的强化微调技术,能够显著提升智能体在复杂多步骤任务中的综合表现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这场分享的核心,在于揭示如何让AI智能体更高效、更可靠地使用工具完成任务。

Agent RFT本质上是一种基于强化学习的模型微调方案,其目标不仅仅是让智能体学会调用工具,更是让它在长期的决策序列中学会规划,优化效率与成本。

从提示词优化到模型微调的渐进路径

在演讲中,Hang强调了一条实用的改进路径:在考虑修改模型权重之前,应该先从优化提示词和任务设计入手。

图片图片

他列举了多个实际案例,例如简化需求描述、添加防护机制以防止工具误用、改进工具描述、优化工具输出质量等。这些看似微小的调整,往往能让智能体做出更明智的下游决策。

尽管这些优化方法通常能带来立竿见影的效果,但在那些需要跨工具交互、进行一致性多步骤推理的复杂任务上,其提升可能会遇到瓶颈。此时,就需要考虑更深层次的模型微调方案。

微调方法的选择:从监督学习到强化学习

Hang将微调选项描述为一个连续谱系:

• 监督微调:当输入到输出存在可预测的映射关系,且目标是模仿一致的风格或结构时,这种方法非常有效。

• 偏好优化:通过成对比较来调整输出,使其更接近人类偏好的响应。OpenAI的Direct Preference Optimization指南将其描述为通过比较模型输出来进行微调的方法,目前主要限于文本输入和输出。

• 强化微调:这种方法更适用于需要模型在较长轨迹中发现策略,而非简单复制单一演示完成模式的任务。

警惕奖励破解!解决评分器中可能存在的任何边缘情况。连续奖励比二元奖励效果更好。—— Will Hang, OpenAI

Agent RFT:为工具使用型智能体量身定制

Agent RFT是强化微调技术在工具使用型AI智能体上的专门适配。

图片图片

在训练过程中,模型会探索不同的策略,并从评分器获得学习信号。OpenAI的文档将这一循环描述为:采样候选响应、使用自定义评分器进行评分、基于这些分数更新模型。

Hang特别强调了跨完整轨迹的信度分配,这意味着包括工具选择和工具调用结构在内的早期决策,都可以基于下游结果得到强化或抑制。

他将AI智能体定义为一个能够通过工具与外部世界交互的系统,而不仅仅是响应用户提示。

工具生态与评分器设计

Hang描述了多种工具使用场景,包括编程智能体的终端工具、客户支持场景中的内部业务系统、文档搜索或检索引擎端点等。

他特别强调,工具输出会流回同一个上下文窗口,因此工具调用、工具输出、推理标记和最终响应共同构成了一个单一的多步骤轨迹。

在这一工作流中,评分器成为核心组件。演讲中介绍了多种评分风格,包括简单匹配器、基于模型的判断器、基于代码的评分器、端点评分器,以及组合多种评分器来共同优化准确性和延迟。

超越准确性的运营属性优化

除了答案准确性,Agent RFT还关注那些仅靠准确率无法捕捉的运营属性。

Hang描述了使用Agent RFT来减少不必要的工具调用、强制执行工具调用预算、减少超长轨迹的长尾分布,这些都能有效降低不可预测的延迟并改善用户体验。

幻灯片展示了训练轨迹,显示推理标记和工具调用在训练过程中逐渐减少,这与智能体能够学会使用更少的步骤达到相似或更好任务结果的观点一致。

实际应用案例:金融领域的智能文档检索

Wenjie Zi在演讲的后半部分分享了具体用例和平台设置细节,包括一个面向金融领域的示例。

在这一场景中,模型必须在受限的工具调用预算下,从大型文档语料库中定位相关内容。智能体使用搜索、列表和文件读取工具,然后由评分器对最终答案进行评分。

Zi特别强调,即使对于数值答案,也使用基于模型的评分器,以减少因表面格式差异、单位或微小变化导致的假阴性结果。这种方法能够更准确地评估答案的正确性。

跨领域的应用价值

Zi还描述了在智能编程和其他领域的更广泛示例,重点关注具有多种工具、隔离执行环境和奖励设计的环境,这些设计需要平衡正确性、流程和效率。

报告的结果强调了改进的规划能力、减少的长轨迹尾部,在某些情况下还出现了向并行工具调用的转变,以减少顺序轮次。

对于希望深入了解的开发者,可以查阅OpenAI的强化微调和模型优化文档。

本文基于InfoQ对QCon+AI NYC 2025大会的报道整理,原文作者Andrew Hoblitzell为Salesforce高级技术团队成员。

来源:https://www.51cto.com/article/832565.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1 4 万亿词元!阿里 Qwen3 6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录 这事儿挺震撼的。就在4月4日,全球最大的AI模型聚合平台OpenRouter在其官方账号上公布了一个爆炸性数字:阿里刚刚发布的千问新模型Qwen3 6-Plus,上线仅仅一天,日调用量

时间:2026-04-04 13:52
实战指南:基于快马平台深度开发,构建企业级workbuddy团队项目管理看板

实战指南:基于快马平台深度开发,构建企业级workbuddy团队项目管理看板

深度开发指南:利用快马平台高效构建企业级WorkBuddy团队项目管理看板 近期在开发团队协作工具WorkBuddy的项目管理模块时,传统开发模式的周期漫长令人困扰。转而采用快马平台(即InsCode)后,开发效率得到显著提升。本文将详细分享如何基于快马平台,快速搭建一个功能完善、体验流畅的企业级项

时间:2026-04-04 10:35
消息称 Meta 低调组建独立硬件团队,打造以多种形态陪伴人类的智能体

消息称 Meta 低调组建独立硬件团队,打造以多种形态陪伴人类的智能体

消息称 Meta 低调成立独立硬件部门,致力于研发多形态人类陪伴型智能体设备 4月4日凌晨,《商业内幕》发布独家报道引发行业关注。多位知情人士透露,Meta公司正悄然为其“超级智能”业务线组建一支独立的硬件研发团队,并任命资深硬件工程师负责整体管理。此举被视为Meta在人工智能设备战略布局上的关键一

时间:2026-04-04 08:55
AI 的记忆不是硬盘——从 40 个真实 Bug 说起

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上

时间:2026-04-03 17:56
OpenClaw给每个Agent单独指定workspace

OpenClaw给每个Agent单独指定workspace

OpenClaw中为每个Agent配置独立工作区的最佳实践 在大模型智能体协作平台上,实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台,为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每

时间:2026-04-03 17:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程