硅谷Agent新纪元：从OpenAI到独角兽，AI工具如何重塑开发未来？

首页

热心网友

转载

2025-10-20

来源:https://www.itbear.com.cn/html/2025-10/992158.html

近期，硅谷在“智能体工具箱”领域动作频频，OpenAI、谷歌和Anthropic三大模型厂商纷纷发力，引发行业高度关注。10月6日，OpenAI在开发者日上推出AgentKit等一系列工具，为开发者构建独立AI产品或智能体提供支持；两天后，谷歌发布Gemini命令行交互扩展，完善其开发生态；10月16日，Claude推出Claude Skills功能，让用户无需编程即可通过“文件夹系统”定义工作流。这些举措背后，反映了模型能力升级后如何用好新功能的迫切需求。

除核心模型厂商外，“智能体工具箱”也成为硅谷创业的热门领域。今年夏天，开源AI框架公司LangChain完成1亿美元融资，跻身新独角兽行列；语音模型提供商ElevenLabs实现员工股权变现，最新估值达66亿美元；OpenAI更是以110亿美元全资收购AB测试和AI应用评估工具公司，其创始人维贾伊·拉吉出任OpenAI应用业务线CTO。

为深入探讨智能体工具链的发展趋势和美国创业实践，我们邀请了常驻硅谷的AGI House联合创始人尹亨利和夏娜欧米进行交流。尹亨利毕业于清华姚班，后赴伯克利攻读博士，期间退学创办思码逸，长期关注智能体工具链与应用层创新，目前正筹备社区型基金MoE Capital，探索下一代AI创业与投资模式。夏娜欧米毕业于沃顿商学院，曾任职于摩根大通AI投资团队，现负责AGI House早期投资，已投资20多家公司，其中包括Composio和Livekit。

尹亨利梳理了智能体工具链领域的“六次进化”。他认为，智能体工具的发展始终围绕模型能力的跃迁。ChatGPT的发布催生了LangChain框架，Anthropic提出的MCP协议为Composio转型提供契机，GPT-4o推出高级语音模式则让LiveKit迎来爆发式增长。随着模型升级间隔越来越短，机遇涌现的节奏也在加快。

在智能体工具链中，AgentKit备受关注。尹亨利指出，此次OpenAI推出的AgentKit覆盖了整个智能体开发生命周期。在构建环节，新推出的Agent Builder是一个可视化工具，通过拖拽就能快速搭建智能体；前端部署方面，ChatKit允许开发者在自己的应用中快速嵌入类似ChatGPT的聊天界面，与OpenAI的模型实时交互；上线后的持续维护、优化，OpenAI提供了监控、评估和改进的一套工具，新增数据集管理、自动提示词优化、轨迹分级以及强化微调等功能。其中，Trace Grading备受关注，它通过编写评价函数，判断用户与智能体交互流程中哪些做得好、哪些不好，并给出标签或评分，评分可以手动打，也可以让LLM来做评审。

对于Agent Builder，有人认为其思路与AGI存在分歧。大多数人认同，最终的智能体应该是高度自动化、能执行多步任务、持续使用工具的，这需要将人工手写的流程“吃”到模型里，而Agent Builder是先画流程图。不过尹亨利认为，虽然对追求研究员来说AgentKit并不性感，但对大客户来说，它安全、好理解、能落地，因此具有一定的市场竞争力。

除了AgentKit，ChatGPT应用和Apps SDK也是OpenAI开发者日的重磅发布。ChatGPT负责人尼克·特利表示，ChatGPT有潜力变成操作系统。尹亨利指出，把ChatGPT当作操作系统并非首次炒作，两年前的CustomGPTs就曾有过类似尝试，但最终多数GPTs只是带logo的一个提示词模板，因为当时调用外部数据麻烦，也不能用第三方服务、存储状态、发送通知或运行工作流。而此次有了AgentKit和Apps SDK，ChatGPT类似iOS的开发SDK，终于可以调用外部工具，还补上了UI组件，是一个真正的平台，也有了一套更完整的工具箱。更重要的是，ChatGPT最新公布的周活用户达8亿，开发者做出的好应用能立刻触达大量用户，冷启动问题会小很多，同时还能获得大企业的信任背书，进入大型企业采购流程。

在市场竞争方面，2024年Anthropic抢走了不少OpenAI的B端份额，此前OpenAI给外界印象也是在C端超级应用上更激进。但尹亨利认为，OpenAI不会放弃B端业务。一方面，ChatGPT周活8亿，已经是“操作系统级”的流量入口；另一方面，Anthropic、谷歌都在猛推企业侧和开发者侧，OpenAI面临生态压力。而且，B端数据和用户使用偏好对提升模型也很重要，很多C端用户也是在生产力场景里使用ChatGPT，B端数据的反馈也能反哺这块。从团队变化也能看出OpenAI对B端的重视，他们新成立了“未来工作”团队，专门加速AI在各种商业场景的落地，如客服、合同审核、数据分析、商业线索转化等。

此次发布后，创业者既看到了机遇，也感受到了压力。机遇在于，新平台把创业者、开发者和用户拉得更近；压力则来自两个方面，一是数据与留存的不对称，现在app的上下文与数据多托管在平台方，初创团队拿到的是有限的上文调用，难以真正建立用户关系、优化留存；二是平台自己下场做的可能性，像OpenAI掌握完整的对话记录，平台上那些看起来很有潜力的机会，也有可能被OpenAI直接吃掉。不过，大家对谷歌反而没那么担心，认为Google做应用的速度追不上初创公司，而OpenAI节奏快得多。

在智能体工具链领域，具体的发展脉络也十分清晰。尹亨利认为，智能体工具的发展始终围绕模型能力的跃迁，大致经历了六次主要升级。2024年底，ChatGPT和GPT-3.5发布，全球第一次直观感受到大语言模型的力量，LangChain等框架出现，提供脚手架让开发者可以更快构建应用；2024年6月，OpenAI首次在API里最新支持工具调用功能，LLM开始能根据上下文需要调用外围工具；2024年11月，Anthropic发布MCP协议，让工具在不同模型间更易复用；2024年5月，GPT-4o的高级语音模式推出，高质量语音交互雏形出现，带火了实时音视频传输需求，LiveKit迎来爆发式增长；2024年Claude 3.5 Sonnet的发布和迭代带来了Cursor的成功，AI写代码能力大幅增强，对“安全执行代码”的沙盒环境需求暴涨；2024年10月，Anthropic率先发布计算机使用模型，随后OpenAI推出Operator，智能体终于能像人一样用浏览器完成任务。

在工具调用方面，最早OpenAI在2024年6月推出函数调用功能，但现在主流的协议却是Anthropic发起的MCP。这是因为Claude在“怎么把工具使用做强大”上花了很多时间，过程中沉淀出MCP。对于下一次进化，尹亨利认为很难预测，但相对确定的是，所有大模型厂商都会继续加注智能体能力，包括推理、工具使用和语音等方面，另外，多模态也会更深融合。

在第三方创业公司方面，也有很多值得关注的方向。夏娜欧米投资的Composio就是其中之一。Composio是MCP的集成商，能提供高质量的MCP服务，不止能调工具，更能保证任务执行的可靠。它分为平台和偏向专业用户的Rube两部分。平台方面，开发者通过编程把平台上的MCP服务接到自己的智能体；Rube最近增长很快，因为它解决了在Cursor中只能同时调用3个MCP Server的痛点，提供了元MCP Server，可以根据任务自动调用正确的MCP Server。Composio一开始想做“自动生成集成代码”的智能体，但发现代码准确率不够，原因是模型调用工具的过程不稳定，于是转向搭建通用工具封装成可直接调用的技能。凭借高质量技术演示和社区驱动，它迅速出圈，最终拿到光速创投领投的A轮投资，2024年6月产品上线时已积累ClickUp、Gleam等早期客户。

除了浏览器使用，语音也是智能体工具领域的重要方向。现在全球每天约1000亿次通话，很大一部分是商业通话，面向企业服务的AI机会很大，同时个人助理或情感陪伴领域的增长也很快。LiveKit成立于疫情期间，一开始服务远程办公需求，基于WebRTC的实时音视频传输，与AI关系不大。GPT-4o把LiveKit用作语音传输层后，它从底层往上丰富产品，现在用它的SDK方便地搭建语音交互智能体。目前，LiveKit每天支撑约2000万次通话，一年前数据是100万，年增20倍。企业层面，OpenAI、Character.AI以及Grok的语音层都由LiveKit驱动，最大的CRM公司Salesforce马上要把智能体部署在LiveKit平台；公共服务层面，LiveKit可以支持美国911约25%的呼叫，通过让接线员了解现场情况，还能转接心肺复苏教练。

记忆也是智能体工具的重要方向。尹亨利介绍了四类记忆，包括情境记忆、流程记忆、存储事实的知识记忆和角色记忆或人格记忆。其中，Letta是这方面增速很快的一家公司，由两位伯克利博士毕业后创立的，帮智能体做“状态管理”。它提出“睡眠时间计算”的概念，不是在推理时烧token，而是在系统空闲时做整理，就像白天开了很多会，晚上用睡觉时间回放处理，把信息沉淀成学习内容和洞见。对于用户是否愿意把数据给Letta的问题，尹亨利认为不太会，类似自动驾驶公司需要司机数据优化算法，但车企出于竞争和数据敏感性不愿给的情况，因为现在的智能体应用市场更分散、更多样，很多初创公司体量小，商业话语权不强。

在评估方面，虽然几乎所有人都认为评估很重要，但大多数公司不愿做，因为这些事很难做。一是成本高，评估数据很多需要人工标注，任务越复杂，成本越高；二是团队常对“用什么数据、怎么构建数据集”没有一致意见。不过，标准化的第三方评估工具也有创业机会。OpenAI以110亿美元收购了Statsig，做的是AB测试、功能逐步发布和数据指标闭环，也就是评估模型效果，按节奏扩大流量。做业务的公司自己也会加入评估组件，但专门做评估的公司仍有其存在的价值。

从商业层面看，智能体工具市场规模潜力巨大。全球软件市场年销售额约6500亿美元，开发者工具规模约200到300亿美元。但这波AI智能体改变了游戏规则，红杉曾预测，AI会把软件市场的天花板从六千多亿美元推到约10万亿美元，因为它能把原来靠人力的服务转成软件服务。如果这个判断成立，那么为AI智能体提供“武器装备”的智能体工具市场规模也会随之跃升，长期规模可能达到2000亿到5000亿美元。而且，这一波AI不是在瓜分存量，而是在创造增量。在这个市场中，已经出现了一些有潜力的公司，如做身份认证的Okta最近一年收入大概在20亿美元，云通信巨头Twilio高峰期收入大概在40亿美元。而面向智能体的观测平台、实时通信基础设施、智能体模块和现有工作流集成等领域，都有可能出现收入100亿美元的大公司，关键在于是否能形成网络效应和数据壁垒。

上一篇：重庆海洋盛会发布AI领航员，擘画海域感知新未来

下一篇：2025乌镇峰会11月开启：共建数智未来，推动多领域合作