OpenAI吞并应用层 a16z称机会在通用模型之外
# AI应用层的真正机会,藏在“黄砖路”之外
最近,一个相同的问题反复出现在我和创始人、潜在员工的对话中:AI应用层到底还值不值得做?或者说,OpenAI和Anthropic最终会不会把这一切都吞掉?
这个问题背后,是一种典型的“AI式焦虑”。有人已经得出了结论:如果你不想永远活在别人的阴影下,唯一有长期价值的位置,要么是挤进大模型实验室内部,要么是去搞机器人、硬科技这类“实验室碰不到”的前沿领域。毕竟,如果每一类软件最终都会被吞噬——要么被Codex或Claude直接替代,要么被未来的某个模型变得多余——那最好的选择,似乎就是赶紧换个赛道。
说实话,我几乎也是一个AI极端乐观派,而且我认为这些担忧说对了一半。大模型实验室确实在大举进入应用层,而且覆盖的面积很广。但关键在于,“应用层”从来就不是一个均匀分布的机会集合。真正需要判断的问题是:你正在走的,是“黄砖路”,还是奥兹国的其他地方?
> 注:“黄砖路”出自《绿野仙踪》,是通往奥兹国核心地带、去见“魔法师”的主路。
所谓“黄砖路”,就是我们用来形容大模型实验室正在全力投入的那条路。代码生成、写作、图像创作这类问题,天生就适合实验室去做,因为它们会随着模型底层能力的提升而自动变好:每一美元投入到预训练和后训练中,都会直接转化为产品质量的改善。
但奥兹国的其他地方,存在着更复杂、也更垂直的问题。这些问题的解法,不是简单地把一个横向工具扔给企业用户,让它接上标准工具和电脑操作能力就能搞定的。这里的价值,更多地来自模型周围的那层“脚手架”——正是这些脚手架,让模型的输出在特定行业中变得可信、合规,并且真正能跑进业务流程里。底层模型的原始能力当然重要,但已经不是全部。
这一点,我们正在实时看到验证。OpenAI和Anthropic实际上已经在向市场承认:它们无法靠一个通用的“AI同事”解决所有问题。它们已经砸下重金,投入大规模的前线部署式合资项目,围绕为企业配置和定制模型来搭建完整的服务公司。如果它们真的认为下一代模型发布就能彻底解决这些问题,那它们根本不会在这种项目上烧掉几十亿美元。
所以,如果你想靠做AI应用赚钱,就别走黄砖路。去奥兹国的其他地方建设。以下是我们以及我们投资组合中的一些创始人,从实践中摸爬滚打出来的经验。
## 黄砖路
如果你想创办一家公司,黄砖路是最显眼的那条路,但也是最危险的一条路。拿一个高性能模型,接上一些现成的连接器——比如Google Drive、Slack、Salesforce、Notion、GitHub——然后在上面搭一层智能体编排层。看起来确实像魔法一样。
但问题在于,这正是大模型实验室正在通过Cowork和Codex做的事情。很显然,它们拥有模型,这意味着它们有更好的利润率、更强的控制力,也能对所有下游参与者施加定价权。但或许更关键的是,它们还掌握着决定产品适合解决什么问题的架构选择权。到目前为止,它们一直非常刻意地采用“模型+工具调用”的模式,而这恰恰是黄砖路上那些横向、步骤数量少的工作所需要的模式。就算一家创业公司能在某些方面超越Codex或Claude Code,大模型实验室仍然拥有庞大的分发能力,以及AI领域最强的品牌光环。
如果你是一家AI应用公司,采用的却是同一套打法——接入相同的连接器,没有下层子智能体或配置,也没有自己的分发渠道——那你很可能正在走一条通向虚无的路。
## 奥兹国的其他地方
对创业公司来说,情况远没有那么悲观。在黄砖路之外,仍然存在着巨大的机会。创业公司完全可以在这些地方拥有客户,并解决真正复杂的问题。
这些公司正在构建的是“智能体体验”:模型被编织进复杂的工具、自动化和集成网络中——换句话说,它们做的其实是软件。这也使得大多数这类创业公司天然就是垂直化的。它们可以专注于多步骤、多参与方的工作流,针对不同角色和垂直场景设计子智能体,处理那些Anthropic和OpenAI的横向平台难以触达的问题:跨系统收集上下文,再把任务路由给多个需要在不同阶段进行审批的人。
这类工作通常会涉及一个或多个遗留系统,往往需要确定性的结果——因为模糊性是不可接受的——而且有时还会直接绑定某个重要的商业结果。大模型实验室当然知道这些问题有多值钱:这就是为什么它们正在搭建自己的外包式配置团队,也是为什么整个围绕大客户做强化学习服务的公司群体正在出现。
## 为什么奥兹国的其他地方不会被“巫师”完全占据
当然,有人会反驳说:到目前为止,赌模型或实验室不会继续进步,一直都是一笔很糟糕的交易。它们很可能会持续变强,并最终吃掉这些应用层公司所服务的市场。
大模型实验室当然会继续进步。但我认为,奥兹国其他地方的公司,长期来看仍然有几条可行的防守路径。
### 数据与学习飞轮
很多你在业务中真正内化的东西,并不存在于任何训练集里:那些不成文的行业惯例、没有文档记录的标准、存在于从业者脑子里的部落知识。它们都不在公开互联网上。无论投入多少训练算力,都无法替代真正进入这些知识所在的工作流内部。
这里有双重飞轮效应:一个是跨客户飞轮——当你见过同一类问题的更多变体后,模式会不断复利;另一个是客户内部飞轮——具体决策背后的原因、那些没有明说的例外、公司自身的经验法则,只有在用户与系统真实互动时才会浮现出来。
就算客户数据不能跨客户使用,应用公司仍然可以利用对不同客户问题类型的模式识别,并用它来指导未来问题的架构设计。一家公司如果已经让自己的智能体处理过一百次法律红线修改、一千轮保险核保周期,或一万次SDR销售开发活动,它对问题形态的理解,已经不是一个后来者第一次启动新智能体就能复制的。
理论上,一个横向智能体也可以建立同样的学习基础设施。但它没有这么做的原因,除了专注度不足之外,更关键的是用户体验。捕捉这种知识,完全取决于你给用户提供了什么样的工作流界面。垂直玩家可以围绕特定工作流真正需要暴露的信息来设计这些界面,横向工具做不到这一点。评估集、标注输出、边界案例分类体系,都可以复合成一个垂直领域的数据飞轮,并进一步支持微调。后来者如果没有同等规模的生产环境暴露,就很难生成这种飞轮。它是否可行,取决于数据权利、积累的生产使用量以及客户合同结构,但模式识别本身仍然会不断积累。
### 管理模型波动性与复杂性
大模型实验室内部已经在做路由:针对不同请求调用不同类别的模型,在底层使用模型集成。但它们做不到的是跨供应商路由,也很难为了某个具体子任务去评估竞争对手的模型,或在某个狭窄环节使用真正最合适的开源微调模型。
奥兹国其他地方的公司,会在整个模型市场中为每个子任务选择最合适的模型,而不仅仅是使用某个母实验室发布的模型。它们也会承担那些没人愿意做的脏活累活:每次新模型发布时重新跑评估、针对客户的边界案例重新校准提示词、在不破坏生产环境的情况下完成上线。大模型实验室不会替客户做这些事。它们把新模型卖给你,然后告诉你去迁移。奥兹国其他地方的公司则吸收了迁移成本。客户得到的是整个市场上最好的智能能力,以及每次升级过程中的连续性。
### 成本优化
把每个查询都丢给Opus 4.7,是让毛利率转负的最快路径。最好的奥兹国公司会在不同层级的模型之间做路由:最难的任务交给前沿模型,大部分任务交给中等模型,在已经证明可行的地方使用更小的定制模型或微调模型。
其中一些公司现在已经开始在此基础上做自己的后训练,把模型优化到客户真正关心的那一小段工作上,并以远低于前沿API调用的成本提供服务。大模型实验室为“地板价”定价:花X美元能买到的最低智能水平。奥兹国公司卖的则是反过来的东西:在特定工作流真正需要的智能水平下,实现最低美元成本。只有当你非常清楚每个子任务到底需要什么级别的智能时,这才可能做到。而大模型实验室在结构上不可能了解每一个垂直行业里的每个任务。最终,这会直接转化为更低、更可控的结果定价——按效果付费,而不是按API调用次数。
### 治理
成为客户在某个垂直领域运行AI的“控制平面”,会带来相当大的价值。这个控制平面,是权限、审计、智能体被允许做什么、智能体实际做了什么汇聚在一起的地方。
这一控制平面建立在具体用例的护栏之上,而不同行业、不同岗位类型中的护栏完全不同。因为这些公司端到端拥有智能体接触的工具、工作流和数据,它们能够以横向工具难以实现的方式提供确定性结果。它们也会替最终买方吸收监管复杂性:法律领域的美国联邦民事诉讼规则和律师执业规则,医疗领域的HIPAA,金融领域的SEC和FINRA规则,州级保险监管,等等。横向玩家如果不把自己变成一百个不同的垂直行业,就无法令人信服地做到这一点。CIO需要的是一个能够在合同中明确承诺“它会为所提供的智能体承担合规处理责任”的合作伙伴。
所有这些最终都回到同一件事:专注。
这种专注可以是一个垂直行业,比如保险、法律、会计;也可以是一个被做得足够深的职能,比如销售、客服、财务。无论哪一种,这项工作都需要一个团队长期扎在同一类客户群体中,理解它的工作流、边界案例和监管要求。大模型实验室并不是为此而建的。它们必须服务所有人、覆盖所有地方,这也是它们最初修建黄砖路的原因。同样的取舍,也会让它们难以进入奥兹国的其他地方:你可以同时无处不在,也可以在一件事上做到极致,但不能两者兼得。
## 以销售为例:来自11x技术型CEO的实操建议
那么在实践中,应该如何理解这件事?以下是11x的CEO Prabha v Jain给出的一些实操建议。
### 聚焦结果
建立一家能够抵御大模型实验室冲击的公司,一个可行的战术路径是:从客户真正关心的具体结果出发。对他们来说,这个结果就是帮助企业产生更多销售线索和销售管道。
从这里开始,问题就会变得非常具体:哪些活动是我们想要端到端拥有、并且确实能推动销售管道增长的?把每项活动拆解成任务。哪些任务适合智能体,哪些不适合?哪些需要复杂的领域洞察,哪些不需要?大模型实验室也会推出工作流,但当一个工作流步骤很多、输入混乱、状态难以解释,或者存在现实世界约束时,仅仅有一个更好的模型并不能把事情做成。这时,工作又回到了传统的软件工程,而在这个层面上,大模型实验室相较一家专注的应用公司并没有优势。
举例来说,他们处理的一些任务包括:基于自定义信号进行潜在客户挖掘、潜在客户信息补全、深度账户研究、从CRM抓取上下文、针对不同渠道撰写信息、潜在客户资格判断智能体,以及邮件送达系统。其中有些是智能体任务,有些不是。这些任务不是一次提示就能完成的,而是需要深度工程能力。
奥兹国这个类比中的关键洞察是:任何真实工作流中,粗略来看有一半是非智能体任务,而这一半并不带来实验室优势。在模型层之下,它们编写确定性软件的能力并不比你强。而另一半智能体任务,也仍然要求你围绕真正想要的结果,对模型进行调优、训练和约束。
领域知识往往不在通用训练数据中。这些能力必须从垂直行业或具体职能中自下而上构建,并在工作流中合适的时刻喂给模型。当他们的智能体通过电话判断一个入站线索是否合格时,它必须被训练成理解:对特定行业、特定用户画像来说,什么才是一场好的销售对话。这是应用公司要做的工作,而且这种能力会复利。
更重要的是,这些能力会不断过时,因为企业本身也在演化。因此,你持续演化工作流和上下文的能力,本身就会成为竞争优势。比如,当他们刚开始做规模化邮件外联产品时,“AI写的邮件”才刚刚开始出现。快进到今天,人们已经形成了一种敏锐感觉,能够分辨哪些邮件是AI写的、哪些更像人写的,而且关键在于,这种判断每隔几个月就会变化。他们的智能体必须随着市场动态不断调整,但护城河也正是在这里建立起来的。事实上,尽管存在这种动态变化,他们的积极回复率在过去几个月里提高了4倍,并为客户创造了数亿美元的销售管道。
### 做高复杂度问题
复杂问题才是真正释放商业价值的地方。否则,你很容易发现自己只是在做一个薄薄的包装层。
拆解任何足够复杂的商业问题,很快就会看到混乱出现。这里有一个来自GTM领域、听起来很简单的例子:如果某家公司已经是你的客户,你就不应该再去联系这家公司里的某个联系人。但这件事一点也不简单。
也许你的CRM中有这家公司对应的域名。那么,那些拥有几十家子公司的公司怎么办?如果CRM记录的是母公司的域名怎么办?如果Salesforce中一个过时的匹配字段,导致你向现有客户的首席营收官发出冷启动销售邮件怎么办?真实世界的数据就是混乱的。人类处理起来都会吃力,模型也不会神奇地越过这道门槛。要从这种混乱中建立秩序,需要围绕问题的具体形态设计专门的智能体,而不是把一个通用副驾驶指向CRM就结束了。事实上,基于他们掌握的数据,他们发现自己的数据质量和新鲜度已经高于客户自身,因此默认情况下,他们会以自己的数据为锚。
### 护栏不只是为了防止坏事发生。客户付钱买的正是这件事
护栏被严重低估了。即便在同一个产品内部,每个用例也都需要自己的护栏。对他们来说,一个受监管的金融服务潜在客户,与一个中型SaaS客户所要求的保证完全不同。而这些保证会层层传导到智能体如何书写、可以联系谁、可以接触哪些数据、可以在电话中说什么,以及每个决策如何被记录。
一套“一刀切”的系统会在这种差异面前崩溃。护栏必须按用例构建、按客户配置,并且持续审计,而这些工作完全落在应用公司身上。这也是为什么他们需要前线部署工程师和技术部署策略师,针对每个客户的要求进行调优。
举例来说,他们曾与一家财富1000强机构合作,通过语音对其庞大的SMB客户群进行经同意的外呼。最初几轮尝试中,接听率很低。他们必须快速迭代,学习如何在通话前10秒内让这类特定受众产生互动。SMB企业主的行为方式,与大型B2B买家或消费者完全不同。现在,他们一天为该机构创造的销售机会,已经超过其整个销售团队在该细分市场一个月所能创造的数量。
## 以保险为例:来自FurtherAI CEO的实操建议
销售只是一个例子。保险是另一个例子,它从不同角度说明了同一件事。以下是FurtherAI CEO Aman Gour对“离开黄砖路建设”的理解。
当他们开始把AI部署进真实的保险运营中时,反复听到一个假设:模型才是智能,工作流只是围绕模型搭建的脚手架。
但他们合作的保险公司越多,就越确信这件事正好相反。
在保险行业,很多智能本身就存在于工作流之中。两家保险公司可以让一份提交材料走过看起来相同的路径:提交、审核、报价、承保。路径本身是容易的。真正区分两家保险公司的,是路径内部的所有东西:哪些风险需要升级,哪些损失信号重要,当两条承保偏好规则冲突时哪一条优先,什么时候必须由人类签字确认,需要调取哪些外部数据,以及最终决策如何被记录。
这些逻辑并不存在于一个干净的规则引擎中。它们分散在标准操作流程、经理审核、核保哲学、保险公司特定的风险偏好,以及多年运营经验中。其中很多并没有以模型可以直接读取的形式写下来。
这就是为什么他们不相信那种每次都从零开始推理的纯智能体,也不相信那种一遇到现实复杂性就会崩溃的刚性工作流。相反,他们一直在构建“智能体工作流”。工作流带来可重复性、可审计性和成本控制;智能体处理变动性,并在理想路径中断时恢复流程;人类则在那些涉及判断和问责的地方保持在环。
第一天,这套系统自动化的是人工工作。但随着时间推移,每一次升级都会成为一个信号,每一个例外都是一次反馈,每一次人类修正都在告诉你原来的操作手册哪里不完整。久而久之,工作流不再只是一段脚本,而会变成保险公司的“运营记忆”。
这正是大模型实验室难以触达的部分。它们会继续发布更好的模型和更好的通用智能体,而且它们也应该这么做。但它们不会长期待在一家保险公司的生产工作流里,去学习为什么某个账户被升级,为什么某个风险被拒绝,或者为什么某个核保人推翻了风险偏好指南,而且事实证明他是对的。
这种理解,只能来自在生产环境中把同一套工作流运行成千上万次。你第一天交付的工作流并不是护城河。生产使用随着时间形成的循环,才是护城河。
对他们来说,这就是“离开黄砖路建设”的含义。
## 如何判断自己是在奥兹国其他地方,还是仍然走在黄砖路上?
### 工具与步骤测试
这项工作需要多少步骤?为了支持它,你需要构建的工具有多复杂?
拿一个横向AI在Google Drive中搜索作比较:它是针对一个工具的一步操作,结果容错率也很高。用户读完摘要,如果错了,再问一次就行。
再看一个基于律所过去三年先例进行多步骤法律红线修改的任务:它可能涉及几十个步骤、多个工具,输出必须通过合伙人审查,甚至可能需要在法庭上被论证。两者看起来都像是“一个智能体在做事”,但只有后者需要那种由专注团队花多年时间构建的深度软件。
### 系统测试
你是在构建一个客户用来运行工作的“系统”,还是在客户已有系统之上增加一个“工具”?
系统拥有端到端工作流:数据捕捉、治理、工作完成记录。客户在描述实际工作如何发生时,会指向这个系统。工具则只是给客户已经在运行的工作流增加一层智能。
工具型产品也可以产生真实收入,但大模型实验室更容易把它拿走,因为客户并不依赖你作为编排层。高ACV(年度合同价值)通常是系统型产品的信号,因为系统替代的是真实人力,也因此能获得相应付费。但这并不是绝对保证。你需要问自己:如果某个大模型实验室推出了一个看似与你直接竞争的产品,客户是否仍然需要你的工具?如果答案是需要,你在构建的是系统。如果答案是不需要,你就是一个工具——即使你的ACV很高。
### 对冲基金 / 损益表测试
大模型实验室的表现,是用基准测试来评判的;奥兹国其他地方公司的表现,则是用客户的损益表来评判的。
客户并不关心你的模型在SWE-Bench或MMLU上得了多少分。他们关心的是:你的智能体是否成交了订单,是否正确修改了合同红线,是否承保了正确的保单。如果客户关注的是特定工作流结果,而不是通用能力分数,你就在奥兹国的其他地方。如果客户付钱买的是通用能力,那你卖的就是他们可以通过Claude或Codex席位获得的东西。
最好的智能体公司需要像对冲基金一样执行:它们赢在alpha,而alpha是在客户损益表中衡量的,不是在基准测试分数中衡量的。
## 两者都能赢,而且都会赢
我们将会在黄砖路上和黄砖路之外同时看到巨大的赢家。模型会继续获胜,因为它们拥有模型,也拥有为横向工具设计好的分发能力。
奥兹国的其他地方也能赢,前提是它们拥有“工作的系统”:也就是企业实际执行工作的界面,以及从中流动并被捕捉的数据。这些公司拥有数据捕捉、工作流行动系统和治理。随着某个垂直领域中的复杂工作流逐渐成熟,它们会复合成一种客户离不开的核心体验。随着既有玩家和新进入者不断发布新一代模型,这家公司会成为把这些模型整合并交付给客户的那一层。底层模型是可替换的,但工作的系统不是。
下一代企业软件,将会在黄砖路之外被建立起来。
来源:https://www.theblockbeats.info/news/62529
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
修Bug被Gemini追删代码致宕机修复报告现编
最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修
Notion AI运营指南:自动归纳用户反馈
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
AI给出的答案为何总不符期望?原因解析
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解
如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们