职场残酷预演：当AI学会自动进化，初级人才的生存空间正被“200小时智能体”挤压殆尽

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

职场残酷预演：当AI学会自动进化，初级人才的生存空间正被“200小时智能体”挤压殆尽

热心网友时间：2026-05-01

转载

神译局是旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

编者按：当AI能在瞬间完乘人类200小时的工作，谁会成为新的“瓶颈”？一场来自METR的桌面演练揭示：未来的竞争格局正在发生根本性转变——纯粹的执行力将急速贬值，而人类的判断力与反馈效率，将成为唯一的决胜关键。文章来自编译。

引言

METR的目标很明确：让公众能及时、清晰地了解AI的真实能力及其潜在风险。从某些衡量标准看，AI堪称有史以来发展最迅猛的技术。更值得关注的是，随着AI开始将自身的研发过程自动化，这一进程还可能进一步加速。可以预见，到明年年底，新模型的发布频率以及所需的新评估数量，很可能会达到一个临界点——如果没有高效AI的辅助，仅靠人类自身，连有效获取信息都可能变得困难重重。我们绝不能等到这类AI增强型工作流变得不可或缺时，才手忙脚乱地去适应；理解并驾驭它们，必须从现在开始。

基于这个紧迫的背景，我们设计并运行了一场为期2小时的桌面演练：三位METR的研究员扮演现实中的自己，处理真实的工作重点，但设定他们可以使用能连续工作约200小时的AI——这大致是对未来12到18个月后技术水平的预期。演练的核心目的，是探究在这种条件下会产生哪些新型工作流、瓶颈会出现在哪里，以及我们的实际工作效率究竟能提升多少。

演练过程

场景

模拟世界

METR独家拥有时间跨度达200小时的AI来自动化工作；而世界其他部分使用的仍是2026年2月的真实技术（即时间跨度约12小时的AI）。
我们配备了适用于200小时跨度AI的Codex/Claude Code版本，以及一套基础的项目管理工作流。
但演练的“当前时间”设定在2026年2月，因此我们评估的是2026年的AI模型，使用2026年版本的Inspect工具，并通过电子邮件等常规方式与人沟通。

AI 能力

AI拥有约200个人类小时的时间跨度，但其相对能力特征与2026年初的AI相似。
它们在可验证的任务上表现惊人，在复杂、凌乱的任务上表现尚可。
AI的运行速度是Claude 4.6 Opus快速模式的两倍，并且我们负担得起以此速度运行模型的成本。
对于与HCAST任务平均“复杂程度”相当的可验证任务，200个人类小时的工作量对应50%的成功率，而40个人类小时则对应80%的成功率。
对于较难验证的任务，其成功程度由游戏主持人（GM）裁定。
在写作方面，如果AI具备相关上下文，其水平相当于METR的入职级员工。

游戏玩法

一名经理和两名研究员扮演现实中的自己及其当前工作重点。Thomas Kwa担任游戏主持人。
每个回合代表半天，每天进行两次站会。现实中每个回合占用15分钟：其中5分钟用于站会，10分钟用于模拟5小时的工作。最终，我们完成了4个回合（模拟了2天的工作时间）。[1]
所有参与者同时在电子表格中记录，每小时填写自己和智能体的操作，并在必要时咨询主持人。下图展示了电子表格的截图。

图1：Nate Rush正疯狂地向未来版本的Claude发送提示词，以改进人类数据基础设施。到了第二天，他会意识到，仅仅是理解Joel和Tom的智能体所构建的内容，就已经让他应接不暇了。

Thomas Kwa 的观察

我们的效率提升了多少？

大多数参与者的估计是，与仅使用2026年2月技术相比，效率提升了大约3到5倍（意味着在这模拟的2天内，完成了相当于1到2周的工作量）。不过，这个数字不宜过度解读，因为它可能受到对实际完成量乐观评估的影响，而且不同团队之间的差异会非常巨大。相比之下，定性结论往往更有趣。

在此前提下，一个有趣的发现是：如果时间跨度是2026年2月模型的17倍，却只带来了3倍的效率提升，那么时间跨度与加速比之间的关系大致符合（$加速比 \propto TH^{0.39}$）的规律。这暗示着，效率的提升并非与AI能力线性增长。

实际体感如何？

在这次3人演练以及之前进行的两次单人Alpha测试中，几个共同的主题浮现出来：

想法跟不上执行速度：一旦你产生一个想法，智能体几乎立刻就能开始实施。结果就是，你不再需要连续几天构思，而是在几个小时内就能做出一个最小可行产品（MVP）并进行迭代修正。如果任务难度没有接近智能体的能力极限，你会把所有时间都花在理解它们产出的结果上；如果任务极具挑战性，那么所有时间则会被用于检查智能体的工作。
让智能体“彻夜工作”：在夜间，智能体可以完成约200个人类小时的工作，但这仅限于那些特别适合智能体的任务。因此，研究人员需要有意识地安排项目顺序，确保那些适合智能体的、定义明确的超长任务（例如优化某个指标）被安排在夜间进行。
优先级排序与组织管理成为新瓶颈：如果智能体执行想法的速度几乎和你输入提示词的速度一样快，那么只实现“最好”的那个想法就失去了意义。并行实现前三个想法可能效益更高，但这无疑大大增加了保持项目条理性的难度。即便有AI编写的仪表板来辅助人类理解，项目的复杂程度也可能以某种方式飙升，使得项目管理变得异常困难。

工作流

基于这次演练，可以预见未来工作流将呈现以下趋势（当然，预测未来向来是件极其困难的事）：

声明式工作流：我已经开始通过编写设计文档，然后让智能体去实施来完成大部分工作，这能让我和智能体保持进度同步。在未来一年，这可能会演变成Tom Cunningham在下文提到的“写下你的局部效用函数”工作流。
投机性执行：为了防止出现串行瓶颈（见下一节），研究人员可能会采用两种形式的投机性执行：一是启动大量不确定是否真正需要的长期实验；二是预测实验结果和反馈（见Tom Cunningham的“智能体可以缓解瓶颈”部分）。
“正确性证明”：如果智能体还无法做到百分之百可靠，那么它们生成的最有价值的输出形式，可能就是向人类证明其代码或方案符合规范。这可能包括详尽的测试、为提高可复现性而撰写的说明、记录设计文档中每一行的具体实施位置，甚至在极端情况下包括形式化验证。