大模型Agent核心认知框架揭秘：从ReAct到思维树，AI如何像人一样思考？

闵浮龙

670人浏览 · 2026-03-16 09:31:27

闵浮龙 · 2026-03-16 09:31:27 发布

最近总有人在后台问我：“阿龙，总听你们说Agent、大模型，这东西到底是怎么思考的？它怎么能自己调用工具、自己反思错误，感觉跟成精了似的？”

问得好！今天，咱们就抛开那些晦涩的论文，用最接地气的方式，把大模型Agent（智能体）的那些“脑子里的想法”给扒个底朝天。

你将会看到，原来AI的思考方式，很多都是从咱们人类身上学的。什么“干一步看一步”、“先计划再行动”、“自我反省”，甚至“胡思乱想”，AI全都会！

一、先从“扛把子”聊起：什么是ReAct框架？

咱们要聊Agent的思考方式，就绕不开一个名字——ReAct。你可以把它理解成Agent思考模式的“地基”或者“原神开局”。

这词儿是“Reason”（推理）和“Act”（行动）的合体。说白了，就是让AI一边思考，一边行动，一边观察结果，然后再接着思考。

想象一下，你是一个客服。用户说：“我手机话费好像扣多了，帮我查查。”
你怎么做？你不会直接背诵一本通讯录，而是：

思考：用户要查话费账单。
行动：打开计费系统，输入用户手机号。
观察：系统返回了账单详情，发现确实有一笔增值业务扣费。
再思考：哦，原来是订阅了某个服务，需要告诉用户，并询问是否需要取消。
再行动：回复用户：“您好，我查了一下，您本月订阅了XX业务扣费XX元，需要帮您取消吗？”

看到了吗？这就是一个典型的思考-行动-观察-再思考的循环。ReAct框架就是干这个的。

为什么它这么牛？
因为它赋予了Agent动态决策的能力。当Agent发现自己知识库里没这东西（比如“今天的天气怎么样？”），它就会触发ReAct中的“行动”步，去调用天气查询工具。查完拿到结果（观察），再结合结果组织语言回答（思考）。整个过程行云流水，就像一个有手有脚、能自己找资料的人类员工。

所以，在下图的那个工作流程里，ReAct Agent就是这么一圈一圈转起来，直到把任务彻底搞定。

二、 Agent的“多重人格”：其他几种认知框架

当然，聪明的工程师们不满足于只有ReAct这一种套路。他们发现，就像不同性格的人处理问题的方式不同，AI也应该有多种思考模式。下面，咱们就来盘点一下这些“性格各异”的认知框架。

1. 函数调用：把AI当成“超级遥控器”

这个框架是OpenAI带火的。它的核心思想特别简单粗暴：大模型别想太多，你就负责理解我说话的意思，然后去按一下正确的按钮就行了。

这个“按钮”，就是我们预先写好的函数。比如，你写了一个函数叫 get_weather(city)，里面封装好了调用天气预报API的所有复杂代码。

你对大模型说：“明天上海冷吗？”
大模型通过“函数调用”框架，它不会自己去编造一个温度，它会分析：“哦，用户想知道上海明天的天气，我应该调用 get_weather 这个函数，参数是‘上海’，日期是‘明天’。” 然后它就去执行了。

应用场景：

智能家居：“打开客厅空调”，AI调用 control_device 函数。
数据分析：“把上个月销售额做个图表”，AI调用 generate_chart 函数。
API集成：“帮我给张三发个邮件说今晚聚餐”，AI调用 send_email 函数。

在这个框架里，大模型就像一个聪明的中央处理器，你只需要准备好各种功能的“遥控器”（函数），它负责帮你按。

2. 计划与执行：谋定而后动的“诸葛亮”

ReAct是“干一步看一步”，那“计划与执行”就是“先画图纸再施工”。

面对一个复杂任务，比如“策划一场公司年会”，你会怎么干？你肯定不会先去找饭店，而是会先拉个清单：定主题、找场地、安排节目、准备餐饮、邀请嘉宾……这就是计划。

在这个框架下，大模型接到任务后的第一步不是行动，而是思考全局，拆解任务，制定一个详尽的步骤清单。比如，它会列出：

确定年会预算和规模。
根据预算搜索合适的酒店或会场。
设计年会流程和互动游戏。
起草并发送邀请函。
...

等这个详细的“作战计划”制定完毕，它才开始进入执行阶段，一步步去调用工具、完成这些子任务。

优势在哪？
对于像自动化工作流管理、项目管理这样需要统筹全局的场景，这个框架能避免AI在细节里迷失方向，保证最终成果的完整性和一致性。

3. 自问自答：内心戏丰富的“思考者”

这个框架很有意思，它让AI学会了自己跟自己对话。

比如你问它：“如何才能快速学习一门新语言？”
一般的AI可能会直接给你列个1、2、3条建议。
但在“自问自答”框架下，它的内心活动可能是这样的：

自问：“‘快速’是多快？一个月还是一年？”
自答：“问题没明确，我得假设一个普遍情况，比如三个月达到日常交流水平。”
再自问：“要达到这个水平，最关键的点是什么？是词汇量？还是口语环境？”
再自答：“应该是沉浸式环境和坚持练习。好，那我就围绕这两点来给建议。”
再自问：“如果用户是个上班族，没时间出国怎么办？”
再自答：“那就推荐一些在线的语伴APP和利用碎片时间听播客的方法。”

你看，通过不断对自己提问和回答，AI把一个相对模糊的问题，一步步细化、深化，最终给出的答案自然就更全面、更有深度，甚至带有一些创造性。这特别适合创意写作、复杂问题深度分析。

4. 批判修正（自我反思）：知错能改的“好学生”

这个框架也叫Self-Reflection，说白了就是让AI学会自我反省。它包含两个核心步骤：

第一步：批判
系统做完一件事，或者生成一个答案后，先不急着交差。它会自己当一回“批评家”，对照着最初的目标或者标准答案（或者干脆就是常识），鸡蛋里挑骨头。

“我刚刚写的这段广告文案，虽然提到了产品功能，但好像不够吸引人，缺乏一个让人眼前一亮的‘钩子’。”
“我刚才规划的那条路线，虽然距离最短，但好像没考虑现在正是晚高峰，这条路肯定堵死了。”
第二步：修正
既然挑出了毛病，那就得改。系统会根据“批判”阶段提出的问题，调整自己的策略，重新生成一个更好的结果。

“好，那我修改一下文案，开头先用一个反问句抓住眼球，再介绍功能。”
“我重新规划路线，把实时交通状况考虑进去，选一条时间最短的路。”

通过这种 “生成-批判-修正-再批判” 的不断迭代，AI就像个“戏精”一样，自己跟自己较劲，直到输出一个它自己觉得满意的结果。这对于需要高质量、高精度产出的场景，比如撰写重要报告、生成代码、进行逻辑推理，价值巨大。

5. 思维链：把“黑箱”变成“透明人”

这个框架你可能也听说过，英文叫Chain-of-Thought，简称CoT。它的目标很单纯：让AI把它的解题步骤一步一步写出来！

以前的AI，你问它一个问题，它“啪”地一下给你个答案，跟个黑箱似的。你不知道它是真懂了，还是蒙的。有了CoT，你让它做一道数学题：“小明有5个苹果，小红的苹果比小明多3个，他们一共有几个苹果？”

AI不会直接回答“13个”。它会一步步推理：

“1. 小明有5个苹果。
2. 小红比小明多3个，所以小红有 5 + 3 = 8 个苹果。
3. 他们俩一共有 5 + 8 = 13 个苹果。
4. 所以答案是13。”

这个过程就是思维链。它极大地提高了AI在复杂推理任务上的准确率，同时让AI的思考过程变得透明、可解释。我们能清楚地看到它是怎么想的，如果错了，也知道错在哪一步。

6. 思维树：CoT的“超级进化版”

如果CoT是一条直线，那ToT就是一棵树。面对一个极其复杂、充满岔路的问题，比如“如何写一部像《三体》那样的小说？”。

用CoT，AI可能就沿着一条思路走到黑。但用ToT，它会这样干：

发散思维：它先不急着写，而是先想出好几个不同的故事开局。比如“一个物理学家的意外发现”、“某个神秘组织的全球行动”、“主角的童年记忆”。这就像一棵树长出了好多根树枝。
自我评估：站在每个“树枝”上，它还会自己琢磨：“这个开局虽然吸引人，但后期展开难度太大。”“这个开局格局有点小，撑不起长篇。”“嗯，这个开局既有悬念，又有空间，不错。”
择优深入：选定了最有潜力的那个“树枝”（比如“物理学家的意外发现”），它会沿着这个方向，继续往下想，继续生出更多的小树枝（发现带来了什么后果？引起了谁的注意？）。如果在这条路上走死了，它还可以回溯到上一个节点，选择另一个“树枝”重新探索。

这就是树搜索。ToT框架让AI拥有了战略性的前瞻和探索能力，能够自我评估不同思考路径的价值，从而在那些需要探索、规划和策略性思考的复杂任务中，表现得像个真正的专家。

小雪的灵魂拷问与咖哥的智慧

看到这，你可能也跟书里的小雪有一样的想法：“咖哥你讲得也太简单了吧？这么多框架，就几句话带过了？”

咖哥的回答特别有水平，他说：“讲解重在给人以启发，该详则详，该略则略。ReAct框架之所以详，是因为它直指Agent推理认知过程的本质。至于其他的框架，有些和ReAct思想相似，有些以后会细讲，还有些需要你自己去看论文。”

这话说得太到位了！ReAct是核心，是通用方法论，你必须掌握。其他的框架，是面向特定场景的“武功招式”，你可以根据需求去学习和选用。

总结：给Agent配上一颗智慧的心

好了，讲了这么多，咱们最后来个小总结。

一个强大的Agent，它的“智慧之心”是由四大要素构成的：

规划：它能像人一样，设定目标、拆解任务、自我反思。而ReAct、Plan-and-Execute、ToT这些框架，就是赋予它这种规划能力的“思维模型”。
工具：它是Agent的手和脚。通过“函数调用”等方式，它能利用搜索引擎、计算器、API接口等外部工具，突破自身知识边界，去感知和改变世界。
记忆：它是Agent的“经验库”。短期记忆让它能在对话中理解上下文，长期记忆则让它能记住用户偏好和历史事实，变得更个性化。
执行：它是Agent最终的“行动力”。把规划和记忆结合起来，通过调用工具，去完成那个最终的动作，比如回复消息、预订餐厅、生成图片。

那么，回到最初的问题：AI到底是如何像人一样思考的？

答案是：通过模仿人类最优秀的思考习惯。

面对简单指令，它用函数调用，当个听话的遥控器。
面对需要决策的连续任务，它用ReAct，像员工一样边想边干。
面对复杂的系统工程，它用计划与执行，像项目经理一样谋定后动。
面对深奥的问题，它用自问自答，像哲学家一样内心戏十足。
为了追求完美，它用批判修正，像资深编辑一样自我审视。
为了展现过程，它用思维链，像数学老师一样在黑板上板书。
面对史诗级难题，它用思维树，像战略家一样运筹帷幄，探索万千可能。

没有哪一种框架是“万能钥匙”。真正的技术大拿，懂得在开发应用时，根据具体的需求、场景和用户体验，去选择、组合甚至创造最合适的认知框架。这才是大模型应用开发最核心、最有趣的地方。

本文参考：图解大模型：生成式AI原理与实战

书籍pdf免费下载地址：https://pan.baidu.com/s/1mTaUQ5czcfGpBM8KvJuS2g?pwd=un44

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig

AtomGit开源社区

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

蒙特卡洛方法是一种基于随机抽样的数值计算方法，通过多次随机抽样来估计系统的行为，从而得到系统的统计性质。在风光模型中，蒙特卡洛方法可以用来模拟风速、风向和太阳光照的变化，进而评估风力和太阳能系统在不同条件下的性能。

AtomGit开源社区

完全免费、绿色免安装的Windows轻量级硬件检测工具，零依赖查看电脑配置

📌 摘要：推荐一款免费免安装的Windows硬件检测工具SysView，单文件便携、零依赖，兼容Win7/10/11系统。支持一键读取CPU、内存、显卡等硬件参数，无广告、不上传隐私。特点包括毫秒级启动、纯本地运行、无需管理员权限，适合普通用户、DIY玩家及运维人员。开源项目，提供32/64位版本下载，点击即用，彻底关闭无残留。 🔗 核心优势： ✅ 永久免费无阉割 ✅ 绿色免安装，U盘随身带