Agent推理模式详解：ReAct与CoT、ToT的区别对比

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

Agent推理模式详解：ReAct与CoT、ToT的区别对比

热心网友时间：2026-06-03

转载

第一部分：Agent推理模式谱系

如果我们将Agent的各种推理方式展开来看，会发现它们几乎构成了一条完整的光谱：一端是纯粹的“思考”，另一端是纯粹的“行动”，而中间地带则是“边想边干”的混合形态。

我们来说说 Agent 的推理模式有哪些？说说 ReAct 模式，它和 CoT、ToT 等模式有什么区别？

先看纯推理的那一类——只进行思考而不采取行动，专门用于解决数学题、逻辑谜题这类需要深度脑力运算的问题，全程不与外部环境发生任何交互。

链式推理（CoT）是最具代表性的方法：模型在给出最终答案之前，会先写出一串中间推理步骤。这就好比考试时，老师要求你完整写出解题过程，每一步都清晰可查。

思维树（ToT）则更进一步——它不满足于一条路走到底，而是在每个决策点尝试探索多个可能的“思维分支”，判断哪个方向更有前景，甚至能果断回溯重新开始。这与下棋时的多步推演如出一辙，你不仅要考虑自己下一步怎么走，还要预判对手的可能应对。

思维图（GoT）把树状结构进一步打散成网状，不同推理链之间可以合并、交叉甚至循环，从而形成一个更复杂的推理网络。

再来看看行动驱动的那一端。这类模式的核心是将推理隐藏在行动与反馈的交互过程之中。

ReAct 是这里面最具代表性的——推理和行动交错协同，也是本文要重点剖析的内容。后续还有反思模式（Reflexion），让Agent在执行完一系列操作后进行“复盘”，总结经验教训以优化后续行为，算是对ReAct的有效补充。而计划与执行模式则主张先绘制好蓝图，再按部就班去落实，好比写代码之前先画出架构图。

第二部分：详解 ReAct 模式

ReAct 这个名称本身就是 “Reasoning + Acting” 的融合，它的理念听起来简单，但实战效果极为强大：让大语言模型同步生成“推理轨迹”和“具体行动”，两者互相支撑、环环相扣。

一个标准的ReAct循环遵循以下流程：

思考：Agent收到用户问题后，先在脑中过一遍：“我需要先查找2023年F1冠军是谁。”
行动：基于这个判断，它决定调用“搜索”工具，并输出一个具体的API调用指令。
观察：环境返回搜索结果，例如“马克斯·维斯塔潘”。
再思考：Agent看到结果后继续推理：“现在知道冠军是维斯塔潘了，接下来要找到他的出生地。”它也可能在这个环节自我纠偏：“刚才搜索的信息还不够完整，得换一个更精确的关键词。”
再行动：发起第二次搜索，查询词改为“马克斯·维斯塔潘出生地”。
再观察：得到反馈“比利时哈瑟尔特”。
最终回答：经过几轮循环后，Agent整理信息给出答案：“2023年F1冠军是维斯塔潘，出生于比利时哈瑟尔特。”

ReAct的三个关键特性值得特别关注：

动态修正。它打破了传统“先规划再执行”的僵硬模式，允许Agent在观察到行动结果后即时调整下一步计划。搜索没找到有效信息？换个关键词。发现前后矛盾？启动验证机制。

可解释性。人的肉眼可以直接追踪Agent的每一次“思考”和“观察”，整个过程透明可调试，不像黑盒那样让人心里没底。

融合内外部知识。模型内部的参数化知识（“我知道需要搜索”）和外部的工具知识（搜索引擎返回的真实结果）被打通，有效缓解了模型“一本正经胡说八道”的幻觉问题。

第三部分：ReAct vs. CoT vs. ToT 核心区别

维度	CoT	ToT	ReAct
核心定义	线性、逐步推理	树状、多路径探索推理	推理与行动交错的协同过程
推理过程	静态的单一推理链 A→B→C→答案	动态多分支探索，可回溯 A→ (B1， B2...) → ...	动态、循环交互：思考→行动→观察→思考...
与外部世界	完全隔绝。不获取、不使用任何外部信息。	完全隔绝。探索的是内部生成的“思维状态”。	强依赖。行动和观察是核心环节，用于获取真实世界知识。
问题解决	内部的、封闭的推理问题。如：数学应用题、逻辑推理。	需要策略探索和全局规划的问题。如：24点游戏、创意写作大纲、需要回溯的谜题。	开放式的、需要与外部环境交互的任务。如：信息检索、控制数字设备、对话式购物等。
核心机制	生成中间推理步骤来分解问题。	生成、评估、搜索多个“下一步思考”分支。	用行动从环境获取事实，用推理来处理事实并指导下一步行动。

用三个直观比喻来区分它们：

CoT 像一位闭卷考试的学生，在脑中一步步演算，直接写出过程和答案。

ToT 像一位棋手，在脑海里推演接下来N种走法和对手的应对，评估每种选择的胜率，选择最优策略。整个过程仍然是脑内活动。

ReAct 则像一位拿着手机的科学侦探——他思考“凶手可能用的氰化物”，然后立刻行动：“查一下化学手册，氰化物的中毒症状是什么？”在看到症状描述（观察）后，他继续推理：“这与目击者的描述不符，得换个方向，查查其他毒物……”他通过不断与外部世界互动，最终拼凑出真相。

总结一下，ReAct能够在Agent构建中占据核心地位，根本原因在于它解决了纯推理模式最大的局限性：无法利用外部工具和真实世界信息来校准知识、执行操作。在实际高级Agent系统中，这些模式往往会组合使用。比如在ReAct的单个“思考环节”里调用ToT来解决某个子问题，形成“ReAct + ToT”的混合策略，兼顾了外部交互与内部复杂推理。