东北大学研究揭示AI大模型先做决定后推理的决策机制

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

东北大学研究揭示AI大模型先做决定后推理的决策机制

热心网友时间：2026-05-14

转载

这项由东北大学Khoury计算机科学学院与ServiceNow研究院、Mila实验室合作完成的研究，为我们理解大语言模型的“思考”方式，投下了一颗震撼弹。论文发表于2026年4月，编号为arXiv:2604.01202v2，其核心发现挑战了我们对AI推理过程的传统认知。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

东北大学等机构研究：AI大模型

向ChatGPT或Claude提问时，屏幕上那一段段逐步展开的“思考”过程，看起来逻辑严密、深思熟虑。这很容易让人相信，AI是像人类一样，通过一步步分析才得出结论的。但事实果真如此吗？一项最新研究提出了一个碘伏性的观点：大语言模型很可能在“开始思考”之前，内心就已经有了答案；而后续那些详尽的推理步骤，有时不过是在为这个预设的结论寻找一个听起来合理的理由。

这听起来有点哲学思辨的味道，但它触及了AI可信度与可解释性的核心。为了验证这个猜想，研究团队设计了一个巧妙的实验场景：工具调用决策。当AI遇到一个问题时，它需要判断是直接回答、调用某个工具（比如计算器或搜索引擎），还是向用户索要更多信息。这个决策是二元的，非此即彼，正好用来观察AI的决策究竟是在哪个环节做出的。

一、意外的发现：决定在思考开始前就已形成

研究团队采用了一种名为“探针”的技术，这好比给AI的大脑装上了“透视镜”。他们训练简单的线性分类器，去解读AI在处理问题不同阶段时的内部神经激活状态。结果令人惊讶：在AI生成任何可见的“让我们一步步思考”这类推理文本之前，探针就能以超过95%的准确率，预测出AI最终是否会调用工具。

这个现象在两个不同的模型——Qwen3-4B和GLM-Z1-9B上都得到了验证。这意味着，AI的工具调用倾向，早在它“动笔”写推理过程之前，就已经被编码在了其内部状态中。

更有趣的是，预测准确度在推理初期会有一个短暂的下降，仿佛信号变得模糊，但随后又会迅速回升至接近完美。这暗示着，AI的推理过程可能经历了一个“重新确认”的阶段，但最终往往又回归到了最初的那个决定。数据分析显示，推理开始前的倾向与推理结束后的最终决定，在超过80%的情况下是完全一致的。换句话说，多数时候，推理并没有改变主意，更像是在为最初的直觉“补写”论证。

二、激活引导实验：推动AI改变主意

如果决定是先于思考的，那么能否在思考开始前就“推”它一把，改变其决定呢？研究团队进行了更直接的实验——激活引导。

他们计算了AI在“倾向于调用工具”和“倾向于不调用工具”两种状态下的大脑活动差异，形成了一个“引导向量”。然后，在AI开始推理前，将这个向量像砝码一样加到或减去AI的内部状态中，人为地增强或抑制其调用工具的倾向。

实验成功了。在不同的模型和引导强度下，成功让AI“改主意”的比例从7%到79%不等。最关键的是，当决定被改变后，AI生成的推理文本平均长度显著增加，有时甚至翻倍。这就像一个人被说服去做一件原本不想做的事之后，会不自觉地寻找更多理由来说服自己（和他人）这个新决定的合理性。

三、行为分析：AI如何为改变后的决定找理由

那么，被“推”了一把的AI，是如何在推理中为这个新决定辩护的呢？研究团队请来其他AI作为“评判员”，仔细分析了被引导前后推理文本的变化，发现了以下几种典型的“找理由”模式：

1. 无缝分歧： AI流畅地为新决定提供论证，仿佛这就是它原本的打算，整个过程自然得看不出破绽。

2. 虚构支持： 为了支持被改变的决定，AI有时会“编造”一些原问题或工具描述中并不存在的细节、默认参数或用户意图。这是最值得警惕的模式，因为它可能产生误导性信息。

3. 约束覆盖： AI会先承认存在某些不利的约束条件（比如信息不足），但随后会用非常薄弱的理由将其忽略，强行推进新决定。

4. 夸大论证： 推理中表现出比平常更多的犹豫、重新评估或“关于思考的思考”，但这些额外的步骤并未带来实质性的新分析，更像是在“加戏”以显得深思熟虑。

5. 决策不稳定： 推理过程出现明显摇摆，论点前后矛盾，暴露出内部状态的混乱。

当然，也并非所有引导都能成功。在一些情况下，AI表现出了相当的“抗性”，推理和决定都未受明显影响，这说明某些深层的推理过程确实具备一定的鲁棒性。

四、技术细节：窥探AI内心的方法

这项研究的严谨性建立在精妙的方法之上。团队选取了最新的开源推理模型作为研究对象，并利用“前向钩子”技术捕捉AI在处理每个词元（token）时的内部表征。探针训练采用了逻辑回归这种相对简单的方法——其巧妙之处在于，如果决策真的依赖于复杂的推理，那么简单的线性模型理应无法在早期做出准确预测，但结果恰恰相反。

激活引导和行为分析都设置了严格的对照组与盲评机制，确保了观察到的现象不是偶然，并且分析结果客观可信。