AI能写代码却不会洗车卡帕西揭示人工智能的局限性

如今最先进的AI大模型,已经能够独立重构一个包含十万行代码的庞大软件项目。然而,同一个模型在面对“如何洗车”这样的日常问题时,却可能给出“步行前往50米外的洗车店”这样令人啼笑皆非的建议。
为何它的能力表现如此割裂?时而如同无所不能的超级工程师,时而又像缺乏基本生活常识的实习生?
在近日的Sequoia AI Ascent 2026炉边谈话中,前特斯拉AI负责人、OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)用一个生动的比喻揭示了这一现象的核心——锯齿状智能(Jagged Intelligence)。对话结束后,他也在社交平台X上总结了此次分享的核心洞见。

2026年4月29日,Karpathy在Sequoia AI Ascent 2026炉边谈话现场
他的阐述聚焦于三个关键层面:首先,大模型带来的远不止是效率提升,它正在开辟数条全新的技术地平线,让一些过去不可能的事情成为现实,同时让另一些传统流程变得过时。其次,正是这种“锯齿状”的能力分布,导致了AI模型表现的巨大波动与不均衡。最后,一个面向AI智能体(agent-native)的新经济形态正在崛起,今天所有为人类设计的软件、文档和工作流程,未来都可能需要为智能体重构。
这三者共同指向一个更深刻的判断:人工智能的影响早已超越“提升编码速度”的范畴。它正在重塑软件开发的本质,并重新定义人类在技术生态中的角色。
即便是“氛围编程”(Vibe Coding)概念的提出者卡帕西本人,不久前也公开感叹:“我从未感觉作为一名程序员如此落后过。”这句话被主持人用作开场白,而这绝非谦辞。一位身处技术浪潮之巅的专家亲口承认跟不上节奏,恰恰印证了AI进化速度的惊人。
能重构十万行代码,却建议你走路去洗车
“这太离谱了。”卡帕西在现场分享了那个经典的“洗车”案例。能够重构十万行代码,意味着AI足以处理极其复杂的软件工程任务;而“走路去洗车店”,则暴露了一个连孩童都能理解的逻辑漏洞——需要清洗的是汽车,而汽车本身无法步行。
这个鲜明的对比,完美诠释了何为“锯齿状智能”。AI的能力提升并非一条平滑的直线,而是一块凹凸不平、参差不齐的锯齿板。在某些经过深度优化和大量训练的任务上,它的表现堪称卓越;而在另一些涉及简单常识或多步骤推理的场景中,它却可能意外“翻车”。
因此,当前最危险的误解,就是用非黑即白的“它行”或“它不行”来简单评判AI。真相远比这复杂。
新地平线:当软件实现“端到端”直接生成
卡帕西分享了一个让他深受触动的例子。他曾开发过一个名为MenuGen的应用程序,其功能是拍摄餐厅菜单后,通过OCR技术识别菜品名称,再调用图像生成模型为每道菜配上图片。这是一个典型的“软件1.0”思维下的产物。
直到他看到了一个“软件3.0”范式的实现:用户只需将菜单照片发送给Gemini这类多模态大模型,并附上一句提示词“用Nanobanana把菜品图片贴到菜单上”,模型便能直接输出一张图文并茂、排版完整的新菜单。

那一刻他意识到,自己那个需要集成多个模块、处理复杂异常流程的App,在新范式面前显得多余。这揭示了第一条新地平线:AI不再仅仅是优化旧工具,而是能将原本需要一整套工程化流程才能完成的任务,压缩为模型的一次性端到端输出。
第二条地平线,是“.md”文件取代“.sh”脚本。过去,安装一个复杂软件往往需要运行冗长且脆弱的bash脚本,系统环境稍有变化就可能导致失败。卡帕西提到了OpenClaw的安装方式:它提供的不是脚本,而是一段Markdown文档,上面写着“将这段内容复制给你的AI智能体”。智能体会自动检查你的系统环境、调试并完成安装。在这里,Markdown不再是给人阅读的说明书,而是给智能体执行的操作指令集。
第三条地平线,是他在2026年4月提出的“LLM Wiki”概念。传统的检索增强生成(RAG)每次问答都是独立的,知识无法有效累积。而LLM Wiki让模型在一个由Markdown文件夹构成的“知识库”中持续工作:新文档加入后,模型会自动更新相关条目、修订摘要、补充内部链接、标记矛盾之处。用户可以用Obsidian这类工具来浏览这个动态更新的Wiki。卡帕西比喻道:Obsidian是IDE(集成开发环境),LLM是程序员,而Wiki本身就是被持续维护的代码库。这让知识管理首次具备了类似软件工程的可积累、可版本控制的特性。
这三个例子殊途同归:软件1.0时代,我们亲手编写每一行代码;软件2.0时代,我们训练神经网络的权重;而软件3.0时代,我们的核心工作变成了设计提示词(Prompt)、管理上下文窗口(Context Window)和调度智能体(Agent)。
锯齿状智能的背后:可验证性与经济学原理
解释了新范式后,卡帕西深入剖析了根本问题:为何模型的智能如此“锯齿化”?他认为,这主要不是一个技术瓶颈,而是一个经济学问题。
前沿实验室在通过强化学习(RL)优化模型时,决定将哪些能力打包进训练数据分布,很大程度上取决于两个核心因素:该领域任务结果的可验证性(Verifiability),以及其潜在的市场规模与商业收入(Revenue/TAM)。

强化学习需要清晰的奖励信号(Reward),而奖励信号依赖于任务结果是否易于验证。像代码能否正确运行、数学题答案是否准确、安全漏洞能否被复现这类问题,很容易构建出自动化的评估环境,模型在这些领域就能获得高效的反馈并飞速进化。
但“可验证”只是前提,“有商业价值”才是核心驱动力。OpenAI、Anthropic、Google等巨头选择优先攻克哪些方向,背后是严酷的商业考量。市场规模大、付费意愿强、能形成商业闭环的领域,会获得大量资源投入,被精心打磨并整合进RL训练流程;反之,则可能无人问津。
卡帕西给出了一个形象的比喻:在强化学习铺设好的主流赛道上,模型的能力如同高速列车般飞驰;而一旦离开这些被充分验证和数据化的领域,就如同拿着砍刀进入原始丛林,举步维艰。
所以,我们今天看到的“锯齿状”能力分布,并非技术缺陷,而是一种必然的市场与技术交织下的结构。它是“可验证性”与“经济激励”这两把刻刀,共同雕琢出的能力图谱。
这对创业者而言至关重要。卡帕西在现场给出了直接建议:如果你想在AI领域创业,应该去寻找那些“任务可验证、但巨头尚未大规模投入”的垂直细分领域。然后自己动手构建强化学习环境,收集领域数据,对基础模型进行微调(Fine-tune)。这可能是当下构建竞争护城河最有效的路径之一。
换句话说,下一批成功的AI原生公司,其核心资产可能就是它们独有的“验证环境”和高质量数据闭环。谁能定义出有价值的可验证任务、构建起高效的奖励循环(Reward Loop)、并积累起丰富的边缘案例(Edge Cases),谁就掌握了主动权。
卡帕西将看似神秘的AI能力不均衡现象,还原成了一个清晰可分析的工程与经济学交叉问题。
从“氛围编程”到“智能体工程”
2025年2月,卡帕西在X上创造了“Vibe Coding”(氛围编程)一词,用来描述那种高度依赖AI生成代码、开发者几乎不亲手敲键盘的编程方式。这个词迅速走红,甚至被柯林斯词典选为2025年度词汇。Cursor、Lovable、Replit等公司的崛起,也印证了这股浪潮。
一年后,在这次对话中,他为这个概念升级了一个新词:智能体工程(Agentic Engineering)。
在他看来,这两者扮演着不同的角色:“氛围编程”是“抬高地板”(Raising the Floor),它极大地降低了编程门槛,让更多非专业人士能够参与创造;而“智能体工程”则是“保住天花板”(Preserving the Ceiling),它确保在AI的辅助下,专业级软件的质量、架构标准和安全性不会滑坡。

因为当前AI生成的代码,在卡帕西看来存在“臃肿”和设计问题——常常包含大量重复代码,抽象设计古怪且脆弱,虽然能运行,但代码质量和可维护性堪忧。
他举了一个真实案例:他的AI智能体在开发MenuGen时,竟然试图用Stripe支付接口返回的客户ID和Google登录返回的邮箱地址来做用户匹配,而不是使用一个持久化的、唯一的用户ID(User ID)。这种设计错误是任何有经验的软件工程师都会避免的,但智能体却会自然而然地犯下。
因此,卡帕西给智能体一个精准的定位:它们就像是一群“实习生”。实习生很有用,能承担大量基础性、重复性的工作,但你绝不会让他们独自负责生产环境的核心代码架构。需求定义、系统架构设计、安全保障、审美判断、最终结果验证……这些关键职责,智能体目前还无法独立承担。
“氛围编程”的爽感,主要体现在业余项目开发和快速原型构建上;而“智能体工程”则是专业软件开发的下一个进化阶段。前者降低了入门门槛,后者则对开发者提出了更高的系统设计、流程管控和质量要求。两者不能混为一谈。
这也是当前行业容易陷入的误区。在“氛围编程”的热潮下,很多人高喊“人人都是程序员”,但卡帕西却指出:能在智能体时代生存下来的工程师,不是那些写代码最快的,而是那些最懂得如何有效规划、管理和驾驭智能体的“导演”或“架构师”。
你可以外包执行,但不能外包理解
炉边谈话中,主持人提出了一个普遍的焦虑:当智能体能够编写代码、调度任务、自行安装软件时,人类程序员的价值还剩下什么?
卡帕西引用了一条令他深受启发的推文来回答:“你可以外包你的思考(过程),但你不能外包你的理解(责任)。”
他的解读是:人类仍然是整个创造过程的最终决策者和责任主体,因为只有人类才真正知道自己要构建什么,以及为何要构建它。在智能体工作流中,人类的角色演变为“工程管理”或“工程导演”。
具体来说,这个角色包含六个无法被AI完全替代的核心职能:
- 需求定义:清晰阐述要构建什么,解决什么问题。
- 任务拆解与计划:将宏观目标分解为智能体可执行的步骤序列。
- 系统架构设计:决定系统的整体结构、组件关系和关键技术选型。
- 品味与审美判断:评估哪个方案在用户体验、代码优雅度和长期可维护性上更优。
- 过程监督与纠偏:确保智能体的执行过程不偏离既定目标和设计规范。
- 最终结果验证与负责:确认智能体的产出是否正确、可靠、安全,并为之承担最终责任。
这六件事,智能体可以辅助执行,但无法承担最终责任。
卡帕西再次提及了他著名的“动物与幽灵”比喻。他认为,当前的前沿大模型研究不是在创造有内在动机和意识的“动物”,而是在“召唤幽灵”。

幽灵没有自主意识,它的智能完全由海量数据和人类设定的奖励信号塑造而成,是一个全新的人造物种。因此,我们不能像对待人类一样赋予智能体自主权,也不能像对待传统确定性软件一样完全预测其行为。
而人类的位置,就是“导演”。导演不亲自扮演每个角色,但他必须懂戏,必须掌控全局的叙事、节奏和最终呈现。同样,未来的开发者可能不亲手写每一行代码,但他必须知道产品最终应该是什么样子、为何A架构方案优于B方案、以及系统上线后可能面临何种挑战与风险。
Sequoia在2026年给出的观察是,AI应用的渗透速度正在加快,成功企业的规模天花板也在提升,“从0到1亿美元”的俱乐部正在向“从0到10亿美元”演进。顶尖的AI创业公司,其单员工年产值已超过百万美元。这背后是AI智能体在高效执行,但能让智能体产出如此巨大商业价值的,正是那些懂得如何当好“导演”的创始人及核心团队。
在谈话尾声,卡帕西描绘了一个更遥远的愿景:未来某天,神经网络或许会成为计算机的主处理器,而传统的CPU则降级为协处理器。但即便走到那一步,“导演”的角色也不会消失。因为“幽灵”永远不会替你思考你究竟需要什么、以及为何需要。那些无法被外包的深层理解、价值判断和终极责任,正是人类价值永恒的锚点。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Glean使命:提供改变世界的知识与工具
你是否曾感到困惑:在日常生活中,我们总能快速找到所需物品,各类工具也能轻松调用;然而一旦进入工作环境,想要定位一份文件、查询某个数据或回溯一段对话,却往往如同大海捞针,耗费大量时间与精力?这正是Glean创始团队洞察到的核心问题。这支由前谷歌搜索与Facebook工程师组成的团队,凭借深厚的技术积累
Mem.ai团队协作工具:高效组织工作与信息的智能助手
Mem,一个听起来就充满未来感的名字。它被定义为世界上首个由人工智能驱动的个性化工作空间。其核心承诺是:放大您的创造力,将那些日常琐事自动化处理,并让一切自动保持井井有条。 数据评估 从公开的访问数据来看,Mem ai的月均独立访客已达到5,136人次。对于关注网站流量与影响力的用户,可以参考主流数
文心智能体平台AgentBuilder使用指南与功能解析
在AI技术快速落地的今天,如何将大模型的潜力转化为实际的产品能力,是许多开发者和企业面临的关键问题。百度推出的文心智能体平台,正是为此而生。它基于强大的文心大模型,为不同背景的开发者提供了一个灵活、高效的智能体(Agent)构建与分发平台。 通过平台能做什么 这个平台的核心思路是“人人可AI”。它面
NAII人工智能计划使命:引领AI研发前沿,确保技术领先地位
欢迎访问AI gov,这里是美国国家人工智能倡议(NAII)的官方网站,也是您获取联邦政府为巩固其在人工智能领域全球领导地位所开展各项工作的核心信息门户。 该倡议的基石是《2020年国家人工智能倡议法案》。该法案于2021年1月1日正式生效,其核心在于要求联邦政府进行跨部门协调,通过加速人工智能的研
单页灵感:精选优质网站设计案例合集
在网页设计与开发领域,单页网站因其极致的聚焦性和流畅的线性浏览体验而备受青睐。作为该领域的标杆,One Page Love 是一个权威的全球单页网站灵感画廊与资源库,持续收录并展示顶尖的单页网站设计案例、优质模板及实用设计资源。 该平台自身的页面设计就是最佳范例:布局清晰直观,视觉风格现代优雅,确保
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

