AI进化放缓：大模型如何突破平台期与未来路径

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

AI进化放缓：大模型如何突破平台期与未来路径

热心网友时间：2025-12-25

转载

AI 的能力发展到什么程度了？这是一个非常实用的问题。

2024 年春节，OpenAI 推出文生视频模型 Sora，足引起一场革命；2025 年春节期间，DeepSeek 引发广泛关注。谁又能预料 2026 年春节，AI 领域还会推出怎样的“年货级”新角色？你得有所准备。

硅谷风险投资机构 a16z 发布的 2025 年消费者 AI 报告总结道，对于各大AI Lab来说，今年是面向消费者推出产品的大年。比方说，OpenAI 发布了数十项 AI 功能，包括 GPT-4o 图像处理模型、独立 App Sora 以及群聊功能，谷歌推出图像处理模型 Nano Banana 和视频生成模型 Veo，其它实验室也都发布了涵盖聊天、编程、搜索、图像生成等领域的多种工具。结果如何？a16z 评价道：“喜忧参半”。

单从 Sora App 的命运便能看出来，哪怕是关注度多如 OpenAI 推出的 AI 产品，也如同一场大雨，雨落到地上的多，存到罐子里的却少。Sora 的全球下载量超过 1200 万次，但据 SensorTower 估计，其 30 天留存率低于 8%。

2025年，AI 浏览器被视为“AI时代的第一入口”，成了兵家必争之地。Perlexity推出Comet、OpenAI有Atlas，谷歌把AI功能嵌入chrome……不过，根据分析，还没有一款AI浏览器的市占率超过1%。同时，2025被宣传为“Agent元年”，根据麦肯锡报告，智能体在舆论和想象中潜力巨大，但现实落地总体还偏早期：62% 受访者所在公司至少在“实验”智能体，但是真正在任何单一业务职能中“规模化使用”智能体的比例都不超过 10%。麦肯锡总结道：“要做好智能体应用，需要付出艰苦努力。”

为何各家开始在产品赛道上卷生卷死？背后是 AI 模型能力的徘徊。低垂的果实已经摘完了，通往 AGI 的前路开始泥泞。

AI 已经很强了，只是升级的速度变慢了

通过分析259个AI大模型在十余项任务上的表现，我们发现，至少在做题方面，AI 已经拳打脚踢相当一部分人。无论是顶尖的高中生数学竞赛，还是研究生级别的物理、生物和化学问题（直接搜索是搜不到答案的，得进行科学推理），或是看图回答问题，AI 都做得很好，超越了人类专家的平均水准。

而一些相对简单、抽象的真实问题，比方说扮演一位电信技术支持的客服，跟客户协调解决诸如“为啥我连不上网？”之类的问题，AI 也已经很能顶事儿了。

从时间维度上看，AI 大模型在大部分任务上的能力跃升集中在 2024 年下半年至 2025 年年初，是AI 大模型在2025这一年徘徊的一个注脚。

有几道人类的护城河，AI 尚未突破（真是松一口气）。科学编程能力，不及格；“人类的最后一场考试”（HLE，涵盖了数学、科学以及人文社科领域有标准答案的难题），AI 没有通过；至于研究级的物理推理能力（约等于一名优秀的物理研究生独立完成研究的水平），AI 还没摸着边。也就是说，在逻辑推理方面，AI 还没能超越最聪明的那一拨人类。

谷歌的 Gemini 3 在 2025 年的 AI 竞赛中表现亮眼，在多个高难度任务上拔得头筹，也为它赢得了更多用户——Gemini 的 Pro 订阅用户同比增长近 300%，而 ChatGPT 的增幅为 155%。

AI 的能力会此消彼长吗？

AI 在不同方面的能力会有一点起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 为例，提高了编程能力，长文本推理能力就下去了一点。这似乎很好理解，人的特质也常出现左右互搏的情况，理智与情感、创造力和服从度，很难两全。难道 AI 也会出现这种情况？

令人惊讶的是，综合 artificialanalysis 上 259 个模型在 12 项任务上的表现，从总体上看，AI 没有哪项能力是真的互斥的。