当前位置: 首页
AI教程
Anthropic 300个Agent闭环才是被忽视的真正护城河

Anthropic 300个Agent闭环才是被忽视的真正护城河

热心网友 时间:2026-07-01
转载

Agent 闭环才是真正的护城河:Anthropic "300 个 Agent" 背后被忽视的秘密

最近,Anthropic内部的消息刷了屏——99%的工程师在跑300个以上会自我改进的agent。很多人盯着“300”这个数字激动不已,但真正值得咀嚼的,是每个agent身上那个能自己验证自己、自己纠正自己的闭环回路。数字背后的工程逻辑,才是决定成败的关键。

一、核心观点

拉起300个agent?门槛低得很,便宜模型加个并发脚本就能搞定。可如果每个agent都是“开环”的,结果不是产能翻300倍,而是垃圾翻300倍。真正难的,是让这群agent干出来的活靠谱。

二、关键信息

2.1 开环 vs 闭环

对比维度开环(Open Loop)闭环(Close the Loop)
验证者人工审查Agent 自己
逻辑生成一次,赌它对生成 → 自检 → 不对就改 → 反复直到收敛
本质聊天逻辑工程逻辑
风险错误流向用户后才发现交付前已自检过一道

2.2 闭环的标准工作姿势

规划(想清楚要干什么、规范是什么)
↓
执行(按计划动手)
↓
验证(调用工具检查自己的输出)
↓
调整计划(根据验证结果修正)
↓
再循环……直到自己满意,才交出来

2.3 让闭环成为可能的三项模型能力提升

能力旧模型新模型
行动前规划上来就干,撞墙才回头先想清楚规范再动手,反而调用更少工具
自我纠错"原地打转",换汤不换药真正读懂反馈,换方法重来
长时程任务上下文跑偏百万 token 跨度内保持专注,循环可转很多圈

2.4 数据佐证

  • SWE-bench Verified 编码评测:Claude 一年前 62%,Opus 4.8 已达 88%,失败率压到原来的 1/3。
  • Anthropic 内部超过 80% 的代码,如今由 Claude 自己合并。

2.5 两个实操建议

  1. 精简 Scaffolding(外层提示 & 工具)

    • 旧模型时代打的「补丁」,对新模型反而是枷锁。
    • 一行过时的格式指令,新模型太听话照做,功能"看着坏了",删掉就好。
    • ✅ 别围着旧模型的毛病写提示,要围着你真正想要的结果写。
  2. 给模型留出干活的空间

    • 让它自己决定思考多久、用多大劲。
    • 在受控前提下,把更多动手的权限交给它。
    • ✅ 你把每一步都焊死,agent 就没有空间自己验证和纠正。

2.6 闭环的真实代价

维度开环闭环
Token 消耗少(只推理一次)多(规划/执行/验证/纠错各推理一次,单任务十几到几十次调用)
风险把全部身家押在"第一次就对"上交付前自检,错误提前暴露
适用场景低风险、一次性生成够用的任务上生产、错不起的任务

三、代码 / 示例

文中无具体代码,但给出了一个概念性工具配置示例:

场景:让 agent 写前端应用

❌ 开环做法:agent 写完代码 → 直接输出 → 等人审查

✅ 闭环做法:agent 写完代码
→ 调用「操作电脑工具」打开浏览器
→ 自动点击页面交互
→ 观察页面是否正常渲染
→ 发现问题 → 回到代码修改
→ 重复,直到页面跑通
→ 输出已自验证的成品

核心配置原则:给 agent 的工具集中,必须包含能检验自身输出正确性的工具,而不只是执行工具。

四、个人启发

  1. "数量崇拜"是一种认知陷阱。 技术圈习惯被大数字震撼,但真正的壁垒往往藏在不性感的工程细节里——比如"怎么设计反馈回流",这种东西写不进课程标题,但才是决定成败的地方。

  2. "什么叫干对了"比"怎么干"更重要。 闭环的前提是你得先想清楚验证标准:对于你的任务,什么状态算"通过"?这个问题不想清楚,给 agent 再多工具也是白搭。

  3. 放手是能力,不是懈怠。 很多人控制欲太强,把每一步都焊死在提示词里,结果 agent 没有纠错空间。真正信任一个系统,是给它设定好目标和验证标准,然后让它自己爬向正确答案。

  4. Token 是成本,翻车才是风险。 两者不对等——token 账单可预测、可控制,生产事故的代价往往无法估量。重新定义"贵",才能做出正确的架构决策。

五、延伸思考

  1. 验证工具的设计本身,是不是一门独立的学问?
    不同任务(写代码、生成文案、数据分析)需要完全不同的自检工具。如何系统地为各类 agent 设计可靠的验证层,目前似乎还缺乏成熟的方法论。这会成为下一个被重点研究的方向吗?

  2. 闭环的「收敛条件」如何防止无限循环?
    agent 自我验证、自我纠错,理论上可以一直转下去。现实中如何设置合理的终止条件(最大迭代次数、置信阈值、人工介入触发点),在保证质量的同时控制成本,是个值得深究的工程问题。

  3. 当 agent 的"验证工具"本身出错时,谁来验证验证者?
    如果验证层本身有盲区或偏差(比如测试用例写错了),agent 可能在错误的轨道上越跑越远、越来越"自信"。如何构建多层次、互相独立的验证机制,避免「自我欺骗式闭环」,可能是规模化部署 agent 时最容易被忽视的安全隐患。

来源:https://juejin.cn/post/7656023099708047369

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
刚刚,OpenClaw和Cursor杀入手机!

刚刚,OpenClaw和Cursor杀入手机!

AI Agent,真的开始从电脑里“跑出来”了。以前我们用 Agent,基本离不开网页、IDE、终端、云环境。你想让它写代码、查资料、改项目、跑任务,很多时候还得坐在工位前盯着。但现在不一样了。OpenClaw 推出了 iOS 和安卓原生 App,手机可以变成私有 Agent 网络里的一个移动节点。

时间:2026-07-01 16:26
幻灯片排版优化AI智能助手,节省时间与精力

幻灯片排版优化AI智能助手,节省时间与精力

说起来,今天想和大家聊聊一个特别实在的话题:怎么用AI工具把PPT排版效率提上去,真正省下时间和精力。谁不想在忙忙碌碌的工作里找到点儿省事的诀窍呢?我有个朋友,为了准备一次重要汇报,连着熬了三个晚上折腾PPT,最后出来的效果也就是勉强及格。要是当时他能用上AI工具,结果会不会完全不一样?PPT排版优

时间:2026-07-01 16:23
AI排版软件让文档制作轻松又高效

AI排版软件让文档制作轻松又高效

AI智能排版工具通过自动识别文档结构、调整格式,显著提升排版效率。实际案例显示,文档处理时间可缩短约50%,项目交付效率提高40%。其功能涵盖自动排版、模板库、智能校对等,重构了文档制作流程,使用户专注内容创作,提升专业形象与市场竞争力。

时间:2026-07-01 16:23
Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究

Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究

2014年,三项研究几乎同时独立提出注意力机制:DzmitryBahdanau在YoshuaBengio实验室开发出RNNSearch(后称注意力),AlexGraves和JasonWeston团队也发表了类似机制。该思想源于解决循环神经网络信息瓶颈的需求,采用可微加权平均,成为深度学习核心算法。

时间:2026-07-01 16:23
如何选择AI排版工具与技巧提升内容创作效率

如何选择AI排版工具与技巧提升内容创作效率

AI排版工具推荐与技巧:如何提升内容创作效率与视觉设计效果其实,AI排版早已成为内容创作领域的热门话题。在信息爆炸的时代,大家都想知道如何让内容在海量信息中脱颖而出。简单来说,AI排版就是借助人工智能技术自动化处理文本、图像等内容的布局与设计。不妨想象一下:星巴克菜单上那些赏心悦目的排版,背后可能就

时间:2026-07-01 16:22
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜