智能体AI工程实践:平衡确定性工具与探索性Agent
埃里克森指出,当我们把智能体AI视为在现有业务系统之上的一个抽象层,而不是完全取代这些系统时,它才能真正发挥价值。模型擅长理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在2025年的QCon纽约AI大会上,Aaron Erickson提出了一个颠覆性的观点:智能体AI本质上是一个工程问题,而非提示词技巧的练习。
他的核心观点是,系统的可靠性源于将概率性组件与确定性边界相结合。
智能体AI作为系统层,而非替代品
埃里克森认为,只有当我们将智能体AI视为真实运营系统之上的一个抽象层,而非完全替代这些系统时,它才会变得真正有价值。
模型可以理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。
自然语言到SQL的常见陷阱
埃里克森描述了在自然语言转SQL以及类似查询生成模式中的一个常见陷阱。
最初几个演示之所以能够成功,是因为问题简单且数据库模式较小。但当模式变得复杂,查询空间包含大量连接、边缘情况或重载字段时,准确性会急剧下降。
他强调的一个缓解策略是减少自由度:扁平化模式、约束查询形式,并将表达能力视为必须通过更多评估和额外保障措施来支付的成本。

分类与代码生成的关键差异
埃里克森还观察到了分类任务和代码生成之间的实用差异。
当系统的任务是从一小组已知类别中进行选择时,模型可以非常有效。但系统的任务是在一个巨大的搜索空间中发明任意程序时,错误率会攀升。
这个差距成为了一个设计杠杆:你可以让模型先对意图进行分类,然后路由到确定性查询模板或有界工具调用。
工具选择本身就是可靠性问题
埃里克森展示了一张包含大量芝士蛋挞菜单的幻灯片,用以说明工具选择本身就是一个可靠性问题。
“大语言模型可能遭受‘选择悖论’”
当太多工具看起来相似时,选择质量会下降,模型可能会自信地选择一个次优或不安全的路径。
工程上的启示是,工具目录和工具接口是产品的一部分。
工具应该具有差异化、描述清晰且受到约束,否则智能体会表现得像一个盯着巨大菜单不知所措的用户,埃里克森说道。

角色专业化的重要性
埃里克森随后阐述了为什么角色专业化很重要。
一个“对一切都略知一二”的通用智能体可能在路由和摘要方面很有帮助,但系统的正确性取决于为特定任务构建的、具有狭窄约定的专用组件。
他描述了一个类似管理层的委托层,但将其视为编排层,而不是领域逻辑应该存在的地方。在他看来,重要的工作在于实际接触底层系统的专用智能体和确定性工具。
智能体行为分类体系
这引出了他对智能体行为的分类体系。
最具体的例子之一是“工人智能体”幻灯片,展示了一个人在石头上画螺旋,配以提示词来检查大量集群并标记值得关注的集群。
他认为智能体可以部署在数千条相似记录上,重复执行相同的分析,并存储结构化输出以供后续审查。
他描述了随着系统增长而帮助控制复杂性的其他角色:
• 工具选择智能体:当有多种方式实现结果时,可以帮助减少歧义
• 观察者或咨询式智能体:可以监控组件之间的交互,标记不安全的通信模式、策略违规或质量回归
• 导演智能体:可以在其他智能体之间委派工作,并跟踪朝着可衡量结果的进展
这个信息反映了经典的测试指导原则:尽可能将信心推入测试中,并保留完整的系统运行以验证集成行为。

确定性锚点的必要性
埃里克森还使用了一个简单的运维类比来证明确定性锚点的必要性。
他问:你是否每次都重新发明常规操作?
答案是:你不会。你会为操作员提供确定性的运行手册。
他认为代理式系统应该继承这个习惯。在可重复性重要的地方,将可重复性编码到工具和运行手册中,让智能体决定何时应用运行手册,而不是允许智能体为每个事件发明新流程。
确定性与发现之间的平衡
最后,埃里克森回到了确定性和发现之间的分割。发现是智能体探索、提议和发现异常的地方。
确定性是确定性工具执行有界操作并执行策略的地方。
他认为,两者之间的边界就是平台工程所在之处:身份验证、授权、审计、遥测和安全降级。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
华为AI深度布局:如何引领科技变革新格局
新智元报道编辑:艾伦【新智元导读】华为诺亚方舟实验室主任王云鹤官宣离职。我们梳理了王云鹤的经历。王云鹤今日在朋友圈官宣,将辞去华为诺亚方舟实验室主任职位,告别华为。从 2025 年 3 月到今天,王
Claude限流,Altman紧急叫停Sora:AI竞争格局改变
新智元报道编辑:元宇【新智元导读】Sora应用关停,Claude却因太火而被限流:一个烧不起,一个供不上,算力墙面前,AI竞赛的胜负手突然变了。一夜之间,打工人突然发现:Claude开始限流了。An
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公
新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而
OpenClaw漏洞威胁:智能家居被反锁与隐私泄露风险
新智元报道编辑:倾倾【新智元导读】2025年底,极客圈发生了一场数字哗变,Anthropic的遮羞布被Peter Steinberger撕了个精光。从OpenClaw开源到Claude被扒出80页「
华为大模型负责人离职,重大人事变动引发行业关注
智东西作者|江宇编辑|冰倩智东西3月28日报道,今日,华为诺亚方舟实验室主任、华为盘古大模型负责人王云鹤在朋友圈发文,确认离职。王云鹤于2017年以华为北京部门首位实习生身份加入,至今已接近9年。在
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

