OpenAI吞并应用层 a16z称机会在通用模型之外

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

OpenAI吞并应用层 a16z称机会在通用模型之外

热心网友时间：2026-05-28

转载

# AI应用层的真正机会，藏在“黄砖路”之外最近，一个相同的问题反复出现在我和创始人、潜在员工的对话中：AI应用层到底还值不值得做？或者说，OpenAI和Anthropic最终会不会把这一切都吞掉？这个问题背后，是一种典型的“AI式焦虑”。有人已经得出了结论：如果你不想永远活在别人的阴影下，唯一有长期价值的位置，要么是挤进大模型实验室内部，要么是去搞机器人、硬科技这类“实验室碰不到”的前沿领域。毕竟，如果每一类软件最终都会被吞噬——要么被Codex或Claude直接替代，要么被未来的某个模型变得多余——那最好的选择，似乎就是赶紧换个赛道。说实话，我几乎也是一个AI极端乐观派，而且我认为这些担忧说对了一半。大模型实验室确实在大举进入应用层，而且覆盖的面积很广。但关键在于，“应用层”从来就不是一个均匀分布的机会集合。真正需要判断的问题是：你正在走的，是“黄砖路”，还是奥兹国的其他地方？ > 注：“黄砖路”出自《绿野仙踪》，是通往奥兹国核心地带、去见“魔法师”的主路。所谓“黄砖路”，就是我们用来形容大模型实验室正在全力投入的那条路。代码生成、写作、图像创作这类问题，天生就适合实验室去做，因为它们会随着模型底层能力的提升而自动变好：每一美元投入到预训练和后训练中，都会直接转化为产品质量的改善。但奥兹国的其他地方，存在着更复杂、也更垂直的问题。这些问题的解法，不是简单地把一个横向工具扔给企业用户，让它接上标准工具和电脑操作能力就能搞定的。这里的价值，更多地来自模型周围的那层“脚手架”——正是这些脚手架，让模型的输出在特定行业中变得可信、合规，并且真正能跑进业务流程里。底层模型的原始能力当然重要，但已经不是全部。这一点，我们正在实时看到验证。OpenAI和Anthropic实际上已经在向市场承认：它们无法靠一个通用的“AI同事”解决所有问题。它们已经砸下重金，投入大规模的前线部署式合资项目，围绕为企业配置和定制模型来搭建完整的服务公司。如果它们真的认为下一代模型发布就能彻底解决这些问题，那它们根本不会在这种项目上烧掉几十亿美元。所以，如果你想靠做AI应用赚钱，就别走黄砖路。去奥兹国的其他地方建设。以下是我们以及我们投资组合中的一些创始人，从实践中摸爬滚打出来的经验。 ## 黄砖路如果你想创办一家公司，黄砖路是最显眼的那条路，但也是最危险的一条路。拿一个高性能模型，接上一些现成的连接器——比如Google Drive、Slack、Salesforce、Notion、GitHub——然后在上面搭一层智能体编排层。看起来确实像魔法一样。但问题在于，这正是大模型实验室正在通过Cowork和Codex做的事情。很显然，它们拥有模型，这意味着它们有更好的利润率、更强的控制力，也能对所有下游参与者施加定价权。但或许更关键的是，它们还掌握着决定产品适合解决什么问题的架构选择权。到目前为止，它们一直非常刻意地采用“模型+工具调用”的模式，而这恰恰是黄砖路上那些横向、步骤数量少的工作所需要的模式。就算一家创业公司能在某些方面超越Codex或Claude Code，大模型实验室仍然拥有庞大的分发能力，以及AI领域最强的品牌光环。如果你是一家AI应用公司，采用的却是同一套打法——接入相同的连接器，没有下层子智能体或配置，也没有自己的分发渠道——那你很可能正在走一条通向虚无的路。 ## 奥兹国的其他地方对创业公司来说，情况远没有那么悲观。在黄砖路之外，仍然存在着巨大的机会。创业公司完全可以在这些地方拥有客户，并解决真正复杂的问题。这些公司正在构建的是“智能体体验”：模型被编织进复杂的工具、自动化和集成网络中——换句话说，它们做的其实是软件。这也使得大多数这类创业公司天然就是垂直化的。它们可以专注于多步骤、多参与方的工作流，针对不同角色和垂直场景设计子智能体，处理那些Anthropic和OpenAI的横向平台难以触达的问题：跨系统收集上下文，再把任务路由给多个需要在不同阶段进行审批的人。这类工作通常会涉及一个或多个遗留系统，往往需要确定性的结果——因为模糊性是不可接受的——而且有时还会直接绑定某个重要的商业结果。大模型实验室当然知道这些问题有多值钱：这就是为什么它们正在搭建自己的外包式配置团队，也是为什么整个围绕大客户做强化学习服务的公司群体正在出现。 ## 为什么奥兹国的其他地方不会被“巫师”完全占据当然，有人会反驳说：到目前为止，赌模型或实验室不会继续进步，一直都是一笔很糟糕的交易。它们很可能会持续变强，并最终吃掉这些应用层公司所服务的市场。大模型实验室当然会继续进步。但我认为，奥兹国其他地方的公司，长期来看仍然有几条可行的防守路径。 ### 数据与学习飞轮很多你在业务中真正内化的东西，并不存在于任何训练集里：那些不成文的行业惯例、没有文档记录的标准、存在于从业者脑子里的部落知识。它们都不在公开互联网上。无论投入多少训练算力，都无法替代真正进入这些知识所在的工作流内部。这里有双重飞轮效应：一个是跨客户飞轮——当你见过同一类问题的更多变体后，模式会不断复利；另一个是客户内部飞轮——具体决策背后的原因、那些没有明说的例外、公司自身的经验法则，只有在用户与系统真实互动时才会浮现出来。就算客户数据不能跨客户使用，应用公司仍然可以利用对不同客户问题类型的模式识别，并用它来指导未来问题的架构设计。一家公司如果已经让自己的智能体处理过一百次法律红线修改、一千轮保险核保周期，或一万次SDR销售开发活动，它对问题形态的理解，已经不是一个后来者第一次启动新智能体就能复制的。理论上，一个横向智能体也可以建立同样的学习基础设施。但它没有这么做的原因，除了专注度不足之外，更关键的是用户体验。捕捉这种知识，完全取决于你给用户提供了什么样的工作流界面。垂直玩家可以围绕特定工作流真正需要暴露的信息来设计这些界面，横向工具做不到这一点。评估集、标注输出、边界案例分类体系，都可以复合成一个垂直领域的数据飞轮，并进一步支持微调。后来者如果没有同等规模的生产环境暴露，就很难生成这种飞轮。它是否可行，取决于数据权利、积累的生产使用量以及客户合同结构，但模式识别本身仍然会不断积累。 ### 管理模型波动性与复杂性大模型实验室内部已经在做路由：针对不同请求调用不同类别的模型，在底层使用模型集成。但它们做不到的是跨供应商路由，也很难为了某个具体子任务去评估竞争对手的模型，或在某个狭窄环节使用真正最合适的开源微调模型。奥兹国其他地方的公司，会在整个模型市场中为每个子任务选择最合适的模型，而不仅仅是使用某个母实验室发布的模型。它们也会承担那些没人愿意做的脏活累活：每次新模型发布时重新跑评估、针对客户的边界案例重新校准提示词、在不破坏生产环境的情况下完成上线。大模型实验室不会替客户做这些事。它们把新模型卖给你，然后告诉你去迁移。奥兹国其他地方的公司则吸收了迁移成本。客户得到的是整个市场上最好的智能能力，以及每次升级过程中的连续性。 ### 成本优化把每个查询都丢给Opus 4.7，是让毛利率转负的最快路径。最好的奥兹国公司会在不同层级的模型之间做路由：最难的任务交给前沿模型，大部分任务交给中等模型，在已经证明可行的地方使用更小的定制模型或微调模型。其中一些公司现在已经开始在此基础上做自己的后训练，把模型优化到客户真正关心的那一小段工作上，并以远低于前沿API调用的成本提供服务。大模型实验室为“地板价”定价：花X美元能买到的最低智能水平。奥兹国公司卖的则是反过来的东西：在特定工作流真正需要的智能水平下，实现最低美元成本。只有当你非常清楚每个子任务到底需要什么级别的智能时，这才可能做到。而大模型实验室在结构上不可能了解每一个垂直行业里的每个任务。最终，这会直接转化为更低、更可控的结果定价——按效果付费，而不是按API调用次数。 ### 治理成为客户在某个垂直领域运行AI的“控制平面”，会带来相当大的价值。这个控制平面，是权限、审计、智能体被允许做什么、智能体实际做了什么汇聚在一起的地方。这一控制平面建立在具体用例的护栏之上，而不同行业、不同岗位类型中的护栏完全不同。因为这些公司端到端拥有智能体接触的工具、工作流和数据，它们能够以横向工具难以实现的方式提供确定性结果。它们也会替最终买方吸收监管复杂性：法律领域的美国联邦民事诉讼规则和律师执业规则，医疗领域的HIPAA，金融领域的SEC和FINRA规则，州级保险监管，等等。横向玩家如果不把自己变成一百个不同的垂直行业，就无法令人信服地做到这一点。CIO需要的是一个能够在合同中明确承诺“它会为所提供的智能体承担合规处理责任”的合作伙伴。所有这些最终都回到同一件事：专注。这种专注可以是一个垂直行业，比如保险、法律、会计；也可以是一个被做得足够深的职能，比如销售、客服、财务。无论哪一种，这项工作都需要一个团队长期扎在同一类客户群体中，理解它的工作流、边界案例和监管要求。大模型实验室并不是为此而建的。它们必须服务所有人、覆盖所有地方，这也是它们最初修建黄砖路的原因。同样的取舍，也会让它们难以进入奥兹国的其他地方：你可以同时无处不在，也可以在一件事上做到极致，但不能两者兼得。 ## 以销售为例：来自11x技术型CEO的实操建议那么在实践中，应该如何理解这件事？以下是11x的CEO Prabha v Jain给出的一些实操建议。 ### 聚焦结果建立一家能够抵御大模型实验室冲击的公司，一个可行的战术路径是：从客户真正关心的具体结果出发。对他们来说，这个结果就是帮助企业产生更多销售线索和销售管道。从这里开始，问题就会变得非常具体：哪些活动是我们想要端到端拥有、并且确实能推动销售管道增长的？把每项活动拆解成任务。哪些任务适合智能体，哪些不适合？哪些需要复杂的领域洞察，哪些不需要？大模型实验室也会推出工作流，但当一个工作流步骤很多、输入混乱、状态难以解释，或者存在现实世界约束时，仅仅有一个更好的模型并不能把事情做成。这时，工作又回到了传统的软件工程，而在这个层面上，大模型实验室相较一家专注的应用公司并没有优势。举例来说，他们处理的一些任务包括：基于自定义信号进行潜在客户挖掘、潜在客户信息补全、深度账户研究、从CRM抓取上下文、针对不同渠道撰写信息、潜在客户资格判断智能体，以及邮件送达系统。其中有些是智能体任务，有些不是。这些任务不是一次提示就能完成的，而是需要深度工程能力。奥兹国这个类比中的关键洞察是：任何真实工作流中，粗略来看有一半是非智能体任务，而这一半并不带来实验室优势。在模型层之下，它们编写确定性软件的能力并不比你强。而另一半智能体任务，也仍然要求你围绕真正想要的结果，对模型进行调优、训练和约束。领域知识往往不在通用训练数据中。这些能力必须从垂直行业或具体职能中自下而上构建，并在工作流中合适的时刻喂给模型。当他们的智能体通过电话判断一个入站线索是否合格时，它必须被训练成理解：对特定行业、特定用户画像来说，什么才是一场好的销售对话。这是应用公司要做的工作，而且这种能力会复利。更重要的是，这些能力会不断过时，因为企业本身也在演化。因此，你持续演化工作流和上下文的能力，本身就会成为竞争优势。比如，当他们刚开始做规模化邮件外联产品时，“AI写的邮件”才刚刚开始出现。快进到今天，人们已经形成了一种敏锐感觉，能够分辨哪些邮件是AI写的、哪些更像人写的，而且关键在于，这种判断每隔几个月就会变化。他们的智能体必须随着市场动态不断调整，但护城河也正是在这里建立起来的。事实上，尽管存在这种动态变化，他们的积极回复率在过去几个月里提高了4倍，并为客户创造了数亿美元的销售管道。 ### 做高复杂度问题复杂问题才是真正释放商业价值的地方。否则，你很容易发现自己只是在做一个薄薄的包装层。拆解任何足够复杂的商业问题，很快就会看到混乱出现。这里有一个来自GTM领域、听起来很简单的例子：如果某家公司已经是你的客户，你就不应该再去联系这家公司里的某个联系人。但这件事一点也不简单。也许你的CRM中有这家公司对应的域名。那么，那些拥有几十家子公司的公司怎么办？如果CRM记录的是母公司的域名怎么办？如果Salesforce中一个过时的匹配字段，导致你向现有客户的首席营收官发出冷启动销售邮件怎么办？真实世界的数据就是混乱的。人类处理起来都会吃力，模型也不会神奇地越过这道门槛。要从这种混乱中建立秩序，需要围绕问题的具体形态设计专门的智能体，而不是把一个通用副驾驶指向CRM就结束了。事实上，基于他们掌握的数据，他们发现自己的数据质量和新鲜度已经高于客户自身，因此默认情况下，他们会以自己的数据为锚。 ### 护栏不只是为了防止坏事发生。客户付钱买的正是这件事护栏被严重低估了。即便在同一个产品内部，每个用例也都需要自己的护栏。对他们来说，一个受监管的金融服务潜在客户，与一个中型SaaS客户所要求的保证完全不同。而这些保证会层层传导到智能体如何书写、可以联系谁、可以接触哪些数据、可以在电话中说什么，以及每个决策如何被记录。一套“一刀切”的系统会在这种差异面前崩溃。护栏必须按用例构建、按客户配置，并且持续审计，而这些工作完全落在应用公司身上。这也是为什么他们需要前线部署工程师和技术部署策略师，针对每个客户的要求进行调优。举例来说，他们曾与一家财富1000强机构合作，通过语音对其庞大的SMB客户群进行经同意的外呼。最初几轮尝试中，接听率很低。他们必须快速迭代，学习如何在通话前10秒内让这类特定受众产生互动。SMB企业主的行为方式，与大型B2B买家或消费者完全不同。现在，他们一天为该机构创造的销售机会，已经超过其整个销售团队在该细分市场一个月所能创造的数量。 ## 以保险为例：来自FurtherAI CEO的实操建议销售只是一个例子。保险是另一个例子，它从不同角度说明了同一件事。以下是FurtherAI CEO Aman Gour对“离开黄砖路建设”的理解。当他们开始把AI部署进真实的保险运营中时，反复听到一个假设：模型才是智能，工作流只是围绕模型搭建的脚手架。但他们合作的保险公司越多，就越确信这件事正好相反。在保险行业，很多智能本身就存在于工作流之中。两家保险公司可以让一份提交材料走过看起来相同的路径：提交、审核、报价、承保。路径本身是容易的。真正区分两家保险公司的，是路径内部的所有东西：哪些风险需要升级，哪些损失信号重要，当两条承保偏好规则冲突时哪一条优先，什么时候必须由人类签字确认，需要调取哪些外部数据，以及最终决策如何被记录。这些逻辑并不存在于一个干净的规则引擎中。它们分散在标准操作流程、经理审核、核保哲学、保险公司特定的风险偏好，以及多年运营经验中。其中很多并没有以模型可以直接读取的形式写下来。这就是为什么他们不相信那种每次都从零开始推理的纯智能体，也不相信那种一遇到现实复杂性就会崩溃的刚性工作流。相反，他们一直在构建“智能体工作流”。工作流带来可重复性、可审计性和成本控制；智能体处理变动性，并在理想路径中断时恢复流程；人类则在那些涉及判断和问责的地方保持在环。第一天，这套系统自动化的是人工工作。但随着时间推移，每一次升级都会成为一个信号，每一个例外都是一次反馈，每一次人类修正都在告诉你原来的操作手册哪里不完整。久而久之，工作流不再只是一段脚本，而会变成保险公司的“运营记忆”。这正是大模型实验室难以触达的部分。它们会继续发布更好的模型和更好的通用智能体，而且它们也应该这么做。但它们不会长期待在一家保险公司的生产工作流里，去学习为什么某个账户被升级，为什么某个风险被拒绝，或者为什么某个核保人推翻了风险偏好指南，而且事实证明他是对的。这种理解，只能来自在生产环境中把同一套工作流运行成千上万次。你第一天交付的工作流并不是护城河。生产使用随着时间形成的循环，才是护城河。对他们来说，这就是“离开黄砖路建设”的含义。 ## 如何判断自己是在奥兹国其他地方，还是仍然走在黄砖路上？ ### 工具与步骤测试这项工作需要多少步骤？为了支持它，你需要构建的工具有多复杂？拿一个横向AI在Google Drive中搜索作比较：它是针对一个工具的一步操作，结果容错率也很高。用户读完摘要，如果错了，再问一次就行。再看一个基于律所过去三年先例进行多步骤法律红线修改的任务：它可能涉及几十个步骤、多个工具，输出必须通过合伙人审查，甚至可能需要在法庭上被论证。两者看起来都像是“一个智能体在做事”，但只有后者需要那种由专注团队花多年时间构建的深度软件。 ### 系统测试你是在构建一个客户用来运行工作的“系统”，还是在客户已有系统之上增加一个“工具”？系统拥有端到端工作流：数据捕捉、治理、工作完成记录。客户在描述实际工作如何发生时，会指向这个系统。工具则只是给客户已经在运行的工作流增加一层智能。工具型产品也可以产生真实收入，但大模型实验室更容易把它拿走，因为客户并不依赖你作为编排层。高ACV（年度合同价值）通常是系统型产品的信号，因为系统替代的是真实人力，也因此能获得相应付费。但这并不是绝对保证。你需要问自己：如果某个大模型实验室推出了一个看似与你直接竞争的产品，客户是否仍然需要你的工具？如果答案是需要，你在构建的是系统。如果答案是不需要，你就是一个工具——即使你的ACV很高。 ### 对冲基金 / 损益表测试大模型实验室的表现，是用基准测试来评判的；奥兹国其他地方公司的表现，则是用客户的损益表来评判的。客户并不关心你的模型在SWE-Bench或MMLU上得了多少分。他们关心的是：你的智能体是否成交了订单，是否正确修改了合同红线，是否承保了正确的保单。如果客户关注的是特定工作流结果，而不是通用能力分数，你就在奥兹国的其他地方。如果客户付钱买的是通用能力，那你卖的就是他们可以通过Claude或Codex席位获得的东西。最好的智能体公司需要像对冲基金一样执行：它们赢在alpha，而alpha是在客户损益表中衡量的，不是在基准测试分数中衡量的。 ## 两者都能赢，而且都会赢我们将会在黄砖路上和黄砖路之外同时看到巨大的赢家。模型会继续获胜，因为它们拥有模型，也拥有为横向工具设计好的分发能力。奥兹国的其他地方也能赢，前提是它们拥有“工作的系统”：也就是企业实际执行工作的界面，以及从中流动并被捕捉的数据。这些公司拥有数据捕捉、工作流行动系统和治理。随着某个垂直领域中的复杂工作流逐渐成熟，它们会复合成一种客户离不开的核心体验。随着既有玩家和新进入者不断发布新一代模型，这家公司会成为把这些模型整合并交付给客户的那一层。底层模型是可替换的，但工作的系统不是。下一代企业软件，将会在黄砖路之外被建立起来。

来源:https://www.theblockbeats.info/news/62529

上一篇： Minimax智能体昵称与头像自定义修改方法

下一篇： Baseten拟融资10亿美元估值110亿年收入增长20倍