硅谷Agent新纪元:从OpenAI到独角兽,AI工具如何重塑开发未来?
近期,硅谷在“智能体工具箱”领域动作频频,OpenAI、谷歌和Anthropic三大模型厂商纷纷发力,引发行业高度关注。10月6日,OpenAI在开发者日上推出AgentKit等一系列工具,为开发者构建独立AI产品或智能体提供支持;两天后,谷歌发布Gemini命令行交互扩展,完善其开发生态;10月16日,Claude推出Claude Skills功能,让用户无需编程即可通过“文件夹系统”定义工作流。这些举措背后,反映了模型能力升级后如何用好新功能的迫切需求。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
除核心模型厂商外,“智能体工具箱”也成为硅谷创业的热门领域。今年夏天,开源AI框架公司LangChain完成1亿美元融资,跻身新独角兽行列;语音模型提供商ElevenLabs实现员工股权变现,最新估值达66亿美元;OpenAI更是以110亿美元全资收购AB测试和AI应用评估工具公司,其创始人维贾伊·拉吉出任OpenAI应用业务线CTO。
为深入探讨智能体工具链的发展趋势和美国创业实践,我们邀请了常驻硅谷的AGI House联合创始人尹亨利和夏娜欧米进行交流。尹亨利毕业于清华姚班,后赴伯克利攻读博士,期间退学创办思码逸,长期关注智能体工具链与应用层创新,目前正筹备社区型基金MoE Capital,探索下一代AI创业与投资模式。夏娜欧米毕业于沃顿商学院,曾任职于摩根大通AI投资团队,现负责AGI House早期投资,已投资20多家公司,其中包括Composio和Livekit。
尹亨利梳理了智能体工具链领域的“六次进化”。他认为,智能体工具的发展始终围绕模型能力的跃迁。ChatGPT的发布催生了LangChain框架,Anthropic提出的MCP协议为Composio转型提供契机,GPT-4o推出高级语音模式则让LiveKit迎来爆发式增长。随着模型升级间隔越来越短,机遇涌现的节奏也在加快。
在智能体工具链中,AgentKit备受关注。尹亨利指出,此次OpenAI推出的AgentKit覆盖了整个智能体开发生命周期。在构建环节,新推出的Agent Builder是一个可视化工具,通过拖拽就能快速搭建智能体;前端部署方面,ChatKit允许开发者在自己的应用中快速嵌入类似ChatGPT的聊天界面,与OpenAI的模型实时交互;上线后的持续维护、优化,OpenAI提供了监控、评估和改进的一套工具,新增数据集管理、自动提示词优化、轨迹分级以及强化微调等功能。其中,Trace Grading备受关注,它通过编写评价函数,判断用户与智能体交互流程中哪些做得好、哪些不好,并给出标签或评分,评分可以手动打,也可以让LLM来做评审。
对于Agent Builder,有人认为其思路与AGI存在分歧。大多数人认同,最终的智能体应该是高度自动化、能执行多步任务、持续使用工具的,这需要将人工手写的流程“吃”到模型里,而Agent Builder是先画流程图。不过尹亨利认为,虽然对追求研究员来说AgentKit并不性感,但对大客户来说,它安全、好理解、能落地,因此具有一定的市场竞争力。
除了AgentKit,ChatGPT应用和Apps SDK也是OpenAI开发者日的重磅发布。ChatGPT负责人尼克·特利表示,ChatGPT有潜力变成操作系统。尹亨利指出,把ChatGPT当作操作系统并非首次炒作,两年前的CustomGPTs就曾有过类似尝试,但最终多数GPTs只是带logo的一个提示词模板,因为当时调用外部数据麻烦,也不能用第三方服务、存储状态、发送通知或运行工作流。而此次有了AgentKit和Apps SDK,ChatGPT类似iOS的开发SDK,终于可以调用外部工具,还补上了UI组件,是一个真正的平台,也有了一套更完整的工具箱。更重要的是,ChatGPT最新公布的周活用户达8亿,开发者做出的好应用能立刻触达大量用户,冷启动问题会小很多,同时还能获得大企业的信任背书,进入大型企业采购流程。
在市场竞争方面,2024年Anthropic抢走了不少OpenAI的B端份额,此前OpenAI给外界印象也是在C端超级应用上更激进。但尹亨利认为,OpenAI不会放弃B端业务。一方面,ChatGPT周活8亿,已经是“操作系统级”的流量入口;另一方面,Anthropic、谷歌都在猛推企业侧和开发者侧,OpenAI面临生态压力。而且,B端数据和用户使用偏好对提升模型也很重要,很多C端用户也是在生产力场景里使用ChatGPT,B端数据的反馈也能反哺这块。从团队变化也能看出OpenAI对B端的重视,他们新成立了“未来工作”团队,专门加速AI在各种商业场景的落地,如客服、合同审核、数据分析、商业线索转化等。
此次发布后,创业者既看到了机遇,也感受到了压力。机遇在于,新平台把创业者、开发者和用户拉得更近;压力则来自两个方面,一是数据与留存的不对称,现在app的上下文与数据多托管在平台方,初创团队拿到的是有限的上文调用,难以真正建立用户关系、优化留存;二是平台自己下场做的可能性,像OpenAI掌握完整的对话记录,平台上那些看起来很有潜力的机会,也有可能被OpenAI直接吃掉。不过,大家对谷歌反而没那么担心,认为Google做应用的速度追不上初创公司,而OpenAI节奏快得多。
在智能体工具链领域,具体的发展脉络也十分清晰。尹亨利认为,智能体工具的发展始终围绕模型能力的跃迁,大致经历了六次主要升级。2024年底,ChatGPT和GPT-3.5发布,全球第一次直观感受到大语言模型的力量,LangChain等框架出现,提供脚手架让开发者可以更快构建应用;2024年6月,OpenAI首次在API里最新支持工具调用功能,LLM开始能根据上下文需要调用外围工具;2024年11月,Anthropic发布MCP协议,让工具在不同模型间更易复用;2024年5月,GPT-4o的高级语音模式推出,高质量语音交互雏形出现,带火了实时音视频传输需求,LiveKit迎来爆发式增长;2024年Claude 3.5 Sonnet的发布和迭代带来了Cursor的成功,AI写代码能力大幅增强,对“安全执行代码”的沙盒环境需求暴涨;2024年10月,Anthropic率先发布计算机使用模型,随后OpenAI推出Operator,智能体终于能像人一样用浏览器完成任务。
在工具调用方面,最早OpenAI在2024年6月推出函数调用功能,但现在主流的协议却是Anthropic发起的MCP。这是因为Claude在“怎么把工具使用做强大”上花了很多时间,过程中沉淀出MCP。对于下一次进化,尹亨利认为很难预测,但相对确定的是,所有大模型厂商都会继续加注智能体能力,包括推理、工具使用和语音等方面,另外,多模态也会更深融合。
在第三方创业公司方面,也有很多值得关注的方向。夏娜欧米投资的Composio就是其中之一。Composio是MCP的集成商,能提供高质量的MCP服务,不止能调工具,更能保证任务执行的可靠。它分为平台和偏向专业用户的Rube两部分。平台方面,开发者通过编程把平台上的MCP服务接到自己的智能体;Rube最近增长很快,因为它解决了在Cursor中只能同时调用3个MCP Server的痛点,提供了元MCP Server,可以根据任务自动调用正确的MCP Server。Composio一开始想做“自动生成集成代码”的智能体,但发现代码准确率不够,原因是模型调用工具的过程不稳定,于是转向搭建通用工具封装成可直接调用的技能。凭借高质量技术演示和社区驱动,它迅速出圈,最终拿到光速创投领投的A轮投资,2024年6月产品上线时已积累ClickUp、Gleam等早期客户。
除了浏览器使用,语音也是智能体工具领域的重要方向。现在全球每天约1000亿次通话,很大一部分是商业通话,面向企业服务的AI机会很大,同时个人助理或情感陪伴领域的增长也很快。LiveKit成立于疫情期间,一开始服务远程办公需求,基于WebRTC的实时音视频传输,与AI关系不大。GPT-4o把LiveKit用作语音传输层后,它从底层往上丰富产品,现在用它的SDK方便地搭建语音交互智能体。目前,LiveKit每天支撑约2000万次通话,一年前数据是100万,年增20倍。企业层面,OpenAI、Character.AI以及Grok的语音层都由LiveKit驱动,最大的CRM公司Salesforce马上要把智能体部署在LiveKit平台;公共服务层面,LiveKit可以支持美国911约25%的呼叫,通过让接线员了解现场情况,还能转接心肺复苏教练。
记忆也是智能体工具的重要方向。尹亨利介绍了四类记忆,包括情境记忆、流程记忆、存储事实的知识记忆和角色记忆或人格记忆。其中,Letta是这方面增速很快的一家公司,由两位伯克利博士毕业后创立的,帮智能体做“状态管理”。它提出“睡眠时间计算”的概念,不是在推理时烧token,而是在系统空闲时做整理,就像白天开了很多会,晚上用睡觉时间回放处理,把信息沉淀成学习内容和洞见。对于用户是否愿意把数据给Letta的问题,尹亨利认为不太会,类似自动驾驶公司需要司机数据优化算法,但车企出于竞争和数据敏感性不愿给的情况,因为现在的智能体应用市场更分散、更多样,很多初创公司体量小,商业话语权不强。
在评估方面,虽然几乎所有人都认为评估很重要,但大多数公司不愿做,因为这些事很难做。一是成本高,评估数据很多需要人工标注,任务越复杂,成本越高;二是团队常对“用什么数据、怎么构建数据集”没有一致意见。不过,标准化的第三方评估工具也有创业机会。OpenAI以110亿美元收购了Statsig,做的是AB测试、功能逐步发布和数据指标闭环,也就是评估模型效果,按节奏扩大流量。做业务的公司自己也会加入评估组件,但专门做评估的公司仍有其存在的价值。
从商业层面看,智能体工具市场规模潜力巨大。全球软件市场年销售额约6500亿美元,开发者工具规模约200到300亿美元。但这波AI智能体改变了游戏规则,红杉曾预测,AI会把软件市场的天花板从六千多亿美元推到约10万亿美元,因为它能把原来靠人力的服务转成软件服务。如果这个判断成立,那么为AI智能体提供“武器装备”的智能体工具市场规模也会随之跃升,长期规模可能达到2000亿到5000亿美元。而且,这一波AI不是在瓜分存量,而是在创造增量。在这个市场中,已经出现了一些有潜力的公司,如做身份认证的Okta最近一年收入大概在20亿美元,云通信巨头Twilio高峰期收入大概在40亿美元。而面向智能体的观测平台、实时通信基础设施、智能体模块和现有工作流集成等领域,都有可能出现收入100亿美元的大公司,关键在于是否能形成网络效应和数据壁垒。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Beam AI
Beam AI Takeoff Software是什么 在建筑估算领域,时间就是金钱,精度决定成败。今天要深入聊的Beam AI Takeoff Software,正是为解决这一核心痛点而生。它是一款由Beam AI公司打造的AI辅助量算工具,专门面向总包商、分包商和材料供应商。简单来说,它的使命就
IndiePulse
IndiePulse是什么 想快速找到下一个创业灵感?市场上总有些工具能让你眼前一亮,IndiePulse就是其中之一。这款由开发者打造的AI工具,核心思路很直接:它一头扎进Reddit这片充满真实用户讨论的“富矿”,自动梳理海量帖子,帮用户提炼出那些隐藏的创业机会和有价值的市场见解。它的目标用户画
MORI
MORI是什么 说到梳理家族脉络、绘制家族树,很多人的第一反应可能是复杂和耗时。但现在,有一款名为MORI的应用程序,正在让这件事变得轻松而直观。它由精密机械制造巨头DMG MORI公司旗下团队开发,专为构建和管理家族历史而生。简单来说,MORI就像一个数字化的家族档案馆,但它远不止于记录——它还关
Uprise Embedded
Uprise Embedded是什么 谈到现在金融咨询领域的革新,很难绕开“人工智能”这个话题。今天我们要聊的Uprise Embedded,正是这股浪潮中的一个代表性产品。它由Creati ai开发,本质上是一个智能金融咨询平台。但有趣之处在于,它并非要用AI完全取代人类顾问,而是巧妙地将认证金融
PouncerAI
PouncerAI是什么 在自由职业的世界里,尤其是像Upwork这样的平台,一封出色的求职信往往是敲开合作大门的第一块砖。但问题也随之而来:海量的机会意味着海量的申请,如何快速、高效且不失个性化地回应每一条招聘信息,成为了许多自由职业者的核心痛点。PouncerAI,正是为了解决这个痛点而生的。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

