第二章智能体发展史

qq_43301756

502人浏览 · 2026-05-20 20:14:59

qq_43301756 · 2026-05-20 20:14:59 发布

智能体发展史

一、时间线

符号主义(1950s-1980s)

→ 联结主义(1980s-2000s)

→ 强化学习(2010s+)

→ 预训练+微调(2018+)

→ LLM智能体(2022+)

每个阶段的关系：上一个解决不了的问题，催生了下一个

二概念梳理

1.符号主义| 专家系统

符号主义

该假说包含两个核心论断：

充分性论断：任何一个物理符号系统，都具备产生通用智能行为的充分手段。
必要性论断：任何一个能够展现通用智能行为的系统，其本质必然是一个物理符号系统。

💡 简明理解：这两个论断用大白话说就是——

充分性：只要你能处理符号（文字、概念等），就足够产生智能了。也就是说，符号处理是智能的"充分条件"。

必要性：只要是真正的智能，就一定是在处理符号。也就是说，符号处理是智能的"必要条件"。

合在一起就是：智能的本质就是处理符号，处理符号就足以产生智能。 这个观点在当时非常大胆，相当于说"只要把知识写成规则让电脑推理，就能做出真正的智能"。

💡 简明理解：最早的一批AI研究者认为，人类之所以聪明，是因为会"讲道理"——能根据已知条件一步步推导出结论。

所以他们想：如果把人类的知识和推理过程都写成规则（就像代码里的if-then语句），让电脑照着这些规则来处理信息，电脑不就也能"思考"了吗？这种思路就叫"符号主义"。

一句话：人写规则(IF-THEN)，机器按规则推理
比喻：像查菜谱做菜，菜谱上没有的菜就不会做
痛点：知识获取瓶颈（专家的经验写不成规则）、常识问题、系统脆弱

专家系统（符号主义的应用成果）

专家系统的"智能"主要源于其两大核心组件：知识库和推理机。

💡 简明理解：

知识库就是一本"规则手册"，里面写满了专家的经验。比如：IF 发烧 AND 咳嗽 THEN 可能感冒了。

推理机

就是一个"查手册的人"。它有两种查法：

正向链：从症状出发，一步步推到结论。比如你告诉它"发烧+咳嗽"，它就去手册里找匹配的规则，最后得出"可能感冒"。

反向链：从结论出发，反推需要什么证据。比如它先假设"你可能得了肺炎"，然后去找肺炎需要什么症状，再问你有没有这些症状。

两种方式的区别就像：正向链是"我有什么证据→得出什么结论"，反向链是"我先猜一个结论→看看证据够不够"。

应用成功经历

特里·威诺格拉德（Terry Winograd）于1968-1970年开发的SHRDLU项目[3]，则在"广度"上实现了革命性的突破。如图2.5所示，SHRDLU旨在构建一个能在"积木世界"这一微观环境中，通过自然语言与人类流畅交互的综合性智能体。"积木世界"是一个模拟的三维虚拟空间，其中包含不同形状、颜色和大小的积木，以及一个可以抓取和移动它们的虚拟机械臂。用户通过自然语言向SHRDLU下达指令或提问，SHRDLU则在虚拟世界中执行动作或给出文字回答。

💡 简明理解：SHRDLU是第一个把"听懂话→想清楚→动手做"这个完整流程做出来的AI。你用英语跟它说话，它能理解你的意思，自己规划怎么做，然后在虚拟积木世界里执行。比如你说"把蓝色积木放到红色积木上面"，但红色积木上面已经有东西了，它会先把上面的东西移开，再放蓝色积木。它还能记住自己做过什么，回答你的追问。

为什么能工作

封闭域：只处理积木世界（有限物体、有限动作）
规则驱动：~400 条手工编写的规则（语法+语义+推理）
状态跟踪：维护积木世界的实时状态
语法-语义一体化：边解析边理解，不是分步处理

符号主义的局限性

（1）常识知识与知识获取瓶颈

💡 简明理解：符号主义遇到两个大麻烦：

知识获取太难了：你得请专家来一条条写规则，但很多专家的知识是"手感"、"直觉"，写不出来。而且世界上的知识无穷无尽，写一辈子也写不完。就像你想做一个"美食AI"，让大厨把所有菜的做法都写成规则——但大厨自己也说不清楚为什么"手感对了"就该出锅。

常识问题：人类觉得理所当然的事（比如"水是湿的"、"从桌上拿杯子杯子会动"），机器不知道。除非你一条条写进去，否则它一无所知。但常识太多了，根本写不完。

（2）框架问题与系统脆弱性

💡 简明理解：

框架问题：你把杯子从桌子左边拿到右边，你的大脑自动知道"杯子还是杯子、水还是水、桌子还在"。但机器怎么知道哪些东西没变？如果每次动作后都要重新检查所有事情，计算量会爆炸。这就是"框架问题"。

系统脆弱性：符号系统就像一台"按菜谱做饭的机器人"。菜谱上写了"盐放1勺"，但如果你给它一个菜谱上没有的食材，它就彻底傻了。而人类厨师可以灵活变通。

2.ELIZA---基于规则的聊天机器人

设计思想并非要创造一个真正能够"理解"人类情感的智能体，恰恰相反，他想证明的是，通过一些简单的句式转换技巧，机器可以在完全不理解对话内容的情况下，营造出一种"智能"和"共情"的假象。然而，出乎他意料的是，许多与ELIZA交互过的人（包括他的秘书）都对其产生了情感上的依赖，深信它能够理解自己。

💡 简明理解：ELIZA是一个1966年做的聊天程序，它模拟心理咨询师。它的套路很简单：听你说话→找关键词→把你的句子转换成一个问题反过来问你。比如你说"我很难过"，它就说"你为什么难过？"。它根本不懂你说什么，只是在玩文字游戏。但很多人聊完后真的觉得它能理解自己——这就是著名的"ELIZA效应"。

ELIZA的算法流程基于模式匹配（Pattern Matching）与文本替换（Text Substitution），可被清晰地分解为以下四个步骤：

关键词识别与排序：规则库为每个关键词（如 mother, dreamed, depressed）设定一个优先级。当输入包含多个关键词时，程序会选择优先级最高的关键词所对应的规则进行处理。
分解规则：

找到关键词后，程序使用带通配符（
```
*
```
）的分解规则来捕获句子的其余部分。
1. 规则示例： * my *
2. 用户输入： "My mother is afraid of me"
3. 捕获结果： ["", "mother is afraid of me"]
重组规则：

程序从与分解规则关联的一组重组规则中，选择一条来生成回应（通常随机选择以增加多样性），并可选择性地使用上一步捕获的内容。
1. 规则示例： "Tell me more about your family."
2. 生成输出： "Tell me more about your family."
代词转换：在重组前，程序会进行简单的代词转换（如 I → you, my → your），以维持对话的连贯性。

💡 简明理解：ELIZA的工作分四步，像一个流水线：

找关键词：你说了一句话，它先找里面有没有它认识的关键词（比如"母亲"、"难过"）。如果有多个关键词，挑最重要的那个。

拆句子：用一个带通配符（*）的模式来"抓住"句子剩下的部分。比如规则是* my *，你说"My mother is afraid of me"，它就把句子拆成两部分。

重组回答：从一堆预设的模板里随机选一个，把拆出来的内容填进去。

换代词：把"我"换成"你"、"我的"换成"你的"，让回答更自然。

整个过程就是：找关键词→拆句子→填模板→换代词。没有理解，全是机械操作。

3.心智社会

正是基于这样对符号主义局限性的反思，明斯基提出了一个颠覆性的构想，

他不再将心智视为一个金字塔式的层级结构，而是将其看作一个扁平化的、充满了互动与协作的"社会"。

💡 简明理解：

明斯基说：别造一个万能的大脑了，造一大堆很简单的小机器人吧。每个小机器人只会做一件事（比如只负责"找东西"或只负责"抓东西"），它们本身很傻。

但这些小机器人组合起来，就能完成复杂的事。就像一个公司，CEO不需要知道每个员工具体怎么做，各部门各司其职，公司就能运转。

涌现是这里最神奇的地方：没有谁在"总指挥"，但复杂的行为自然而然地冒出来了。就像一群蚂蚁，每只蚂蚁都很简单，但整个蚁群能建巢、觅食、分工合作——这种复杂行为是"涌现"出来的。

让我们以经典的"搭建积木塔"任务为例，来说明这一过程，如图2.6所示。当一个高层目标（如"我要搭一个塔"）出现时，它会激活一个名为BUILD-TOWER的高层机构。

在这个过程中，没有任何一个智能体或机构拥有整个任务的全局规划。GRASP只负责抓握，它不知道什么是塔；BUILDER只负责循环，它不知道如何控制手臂。然而，当这个由无数"无心"智能体组成的社会，通过简单的激活和抑制规则相互作用时，一个看似高度智能的行为，搭建积木塔，就自然而然地涌现了出来

价值：启发了后来的多智能体系统(MAS)

💡 简明理解：明斯基的理论启发了一个新方向——如果大脑里的"小家伙"能合作产生智能，那多台电脑、多个机器人之间，是不是也能通过合作产生更强大的"群体智能"？这就是多智能体系统（MAS）的研究起点。MAS研究的核心问题就是：怎么让一群独立的AI互相通信、互相协作，一起完成更复杂的任务？

4. 联结主义（神经网络）

作为对符号主义局限性的直接回应，联结主义（Connectionism）在20世纪80年代重新兴起。与符号主义自上而下、依赖明确逻辑规则的设计哲学不同，联结主义是一种自下而上的方法，其灵感来源于对生物大脑神经网络结构的模仿[8]。

💡 简明理解：

符号主义：人写规则教机器 → 自上而下

联结主义：机器自己从数据中学 → 自下而上

联结主义的灵感来自大脑。大脑由大量神经元组成，每个神经元只做简单的计算（接收信号→加权求和→输出），但亿万神经元连在一起，就能产生复杂的智能。

知识不是存在某个地方的"规则库"，而是分散在神经元之间的连接权重里。就像你认识"猫"，不是因为脑子里有一条规则写着"猫有四条腿、尖耳朵、会喵喵叫"，而是因为你大脑里无数神经元的连接模式构成了对"猫"的认知。

怎么学习？ 给它看大量数据，让它自己调整内部参数。比如给它看1000张猫的照片和1000张狗的照片，它自己学会怎么区分。

联结主义主要解决了感知问题（例如，"这张图片里有什么？"）

5. 强化学习

比起感知问题智能体更核心的任务是进行决策（例如，"在这种情况下，我应该做什么？"）。

强化学习（Reinforcement Learning, RL）正是专注于解决序贯决策问题的学习范式。它并非直接从标注好的静态数据集中学习，而是通过智能体与环境的直接交互，在"试错"中学习如何最大化其长期收益。

💡 简明理解：

化学习就像训练小狗。你让它坐下，它坐了，你给它零食（奖励）。它没坐，你不给（没有奖励）。重复多次后，小狗学会了"坐下=有零食"。

AlphaGo也是这样学下棋的：它跟自己下几百万盘棋，赢了就加强这个策略，输了就削弱。最终它自己学会了在什么棋局下怎么下最好。

强化学习有五个关键角色：

智能体 = 学习者（比如AlphaGo的决策程序）

环境 = 智能体要面对的世界（比如围棋规则）

状态 = 当前的情况（比如棋盘上棋子的位置）

行动 = 智能体能做的事（比如在某个位置落子）

奖励 = 做完后得到的反馈（赢了+1，输了-1）

强化学习智能体在一个"感知-行动-学习"的闭环中持续迭代

6. 预训练+微调

困境：

无论是符号主义试图手动编码的常识，还是人类在决策时所依赖的背景知识，在RL智能体中都是缺失的。如何让智能体在开始学习具体任务前，就先具备对世界的广泛理解？

解决：

最终在自然语言处理（Natural Language Processing, NLP）领域中浮现，其核心便是基于大规模数据的预训练（Pre-training）。

预训练阶段：首先在一个包含互联网级别海量文本数据的通用语料库上，通过自监督学习（Self-supervised Learning）的方式训练一个超大规模的神经网络模型。
微调阶段：完成预训练后，这个模型就已经学习到了和数据集有关的丰富知识。之后，针对特定的下游任务，只需使用少量该任务的标注数据对模型进行微调，即可让模型适应对应任务。

💡 简明理解：

以前的做法：做翻译的专门学翻译，做情感分析的专门学情感分析。每个模型都是从零开始学，知识面很窄。

预训练的做法：先让模型"博览群书"——在互联网上的海量文本上训练，学会语言的基本规律、语法、事实知识。然后再针对具体任务"微调"一下。

打个比方：以前的思路是"你要学做川菜，就从零开始学川菜"。预训练的思路是"你先上一个综合烹饪学校，学会所有菜系的基础，然后再专修川菜"。

自监督学习是什么？就是从数据本身自动产生标签，不需要人工标注。比如给模型一段文字"今天天气真___"，让它猜下一个词是"好"——这就是自监督学习，标签（"好"）是从数据本身得到的，不需要人来标注。

7. LLM智能体架构

LLM 的诞生:

通过在数万亿级别的文本上进行预训练，大型语言模型的神经网络权重实际上已经构建了一个关于世界知识的、高度压缩的隐式模型。它以一种全新的方式，解决了符号主义时代最棘手的"知识获取瓶颈"问题。更令人惊讶的是，当模型的规模（参数量、数据量、计算量）跨越某个阈值后，它们开始展现出未被直接训练的、预料之外的涌现能力（Emergent Abilities），例如：

上下文学习（In-context Learning）：无需调整模型权重，仅在输入中提供几个示例（Few-shot）甚至零个示例（Zero-shot），模型就能理解并完成新的任务。
思维链（Chain-of-Thought）推理：通过引导模型在回答复杂问题前，先输出一步步的推理过程，可以显著提升其在逻辑、算术和常识推理任务上的准确性。

💡 简明理解：

涌现能力：模型变大到一定程度后，突然"开窍"了，展现出一些没有被直接训练过的能力。就像一个小孩，学了很多东西后，突然有一天自己会"举一反三"了。

上下文学习：不用重新训练，只要在输入里给几个例子，模型就能理解并完成新任务。比如你给模型看几个"苹果→水果"、"狗→动物"的例子，它就能自己推出"桌子→家具"。

思维链：让模型一步步推理，能显著提高复杂问题的准确性。比如问"小明有5个苹果，给了小红2个，又买了3个，现在有几个？"，模型会一步步算："5-2=3，3+3=6，所以有6个"。

随着大型语言模型技术的飞速发展，以LLM为核心的智能体已成为人工智能领域的新范式。它不仅能够理解和生成人类语言，更重要的是，能够通过与环境的交互，自主地感知、规划、决策和执行任务。

形成了 :感知-> 思考 ->行动->观察 -->>再感知.... 的循环

💡 简明理解：LLM驱动的智能体就像一个"AI助手"，它的工作流程是一个不断循环的过程：

感知（接收信息）→ 思考（分析、规划）→ 行动（执行、调用工具）→ 观察（看结果）→ 再感知 → 再思考 → ……

举个例子：你让AI助手"帮我查一下明天北京的天气，然后整理成中文回复给我"。

感知：AI接收你的指令

思考：分析出需要先调用天气API，再解析数据，再整理成中文

行动：调用天气API获取数据

观察：拿到天气数据

思考：整理成中文回复

行动：发送回复给你

这种架构的好处是模块化（各部分各司其职）和持续迭代（不是一次性回答，而是不断观察、思考、行动，逐步完成任务）。

四、重点概览

符号主义 / 专家系统

一句话：人写规则(IF-THEN)，机器按规则推理
比喻：像查菜谱做菜，菜谱上没有的菜就不会做
痛点：知识获取瓶颈（专家的经验写不成规则）、常识问题、系统脆弱

ELIZA

一句话：找关键词→拆句子→套模板→换代词，没有真正理解
比喻：像一个复读机，把你说的话换个方式问回来
要点：产生了"ELIZA效应"——用户以为它懂了，其实没有

心智社会（明斯基）

一句话：智能=大量简单小模块协作，不是靠一个大中央处理器
比喻：像蚁群，每只蚂蚁很简单，但蚁群整体很聪明（涌现）
价值：启发了后来的多智能体系统(MAS)

联结主义（神经网络）

一句话：不写规则，让机器从数据里自己学，知识藏在连接权重里
比喻：像小孩学认猫，看多了自然会认，不是靠背规则
和符号主义的区别：自上而下(人写规则) vs 自下而上(机器自己学)

强化学习

一句话：通过试错学习，做对给奖励，做错给惩罚
五个要素死记：Agent(智能体)、State(状态)、Action(行动)、Reward(奖励)、Policy(策略)
比喻：训练小狗，坐下给零食，不坐不给
AlphaGo：和自己下棋几百万盘，赢了加强策略，输了削弱策略

预训练+微调

一句话：先让模型在海量文本上学通用知识，再用少量数据适配具体任务
比喻：先上综合烹饪学校，再专修川菜
解决了符号主义的"知识获取瓶颈"——不用人写规则了
涌现能力：模型大到一定程度后，突然会了没教过的东西（上下文学习、思维链推理）

LLM智能体架构

四个模块循环：感知→思考→行动→观察→再感知……
核心：LLM是"大脑"，负责规划和推理，调用工具执行

五、习题与答案

题目1：物理符号系统假说

充分性论断和必要性论断分别是什么含义？结合本章内容，说明符号主义智能体在实践中遇到的哪些问题对该假说的"充分性"提出了挑战？大语言模型驱动的智能体是否符合物理符号系统假说？

答案：

充分性论断：只要你能处理符号（文字、概念等），就足够产生智能了。符号处理是智能的充分条件。必要性论断：凡是真正的智能，一定是在处理符号。符号处理是智能的必要条件。合起来就是：智能的本质就是处理符号，处理符号就足以产生智能。对充分性提出挑战的实践问题：

知识获取瓶颈：很多知识（比如"水是湿的"、"手感对了就该出锅"）根本写不成规则，说明光有符号处理不够
框架问题：动作后判断哪些东西没变，靠符号推理计算量爆炸，根本算不过来
系统脆弱性：遇到规则外的任何新情况就完全崩溃，说明"有规则不等于有智能"
常识问题：人类理所当然的常识（绳子能拉不能推），符号系统不知道，除非一条条写进去，但写不完大语言模型是否符合假说：不完全符合。LLM的本质是神经网络（联结主义产物），知识藏在模型权重里，不是显式的符号规则。但LLM能做符号推理（思维链、逻辑推导），能进行工具调用和规划。所以LLM是神经-符号混合体，超出了假说"智能=符号处理"的简单二分法。现代智能体用联结主义的模型（LLM）来执行符号主义的任务（推理、规划），是两大范式的融合。

题目2：专家系统MYCIN

除了本章提到的"知识获取瓶颈"和"脆弱性"，还有哪些因素可能阻碍了专家系统在医疗等高风险领域的应用？如果让现在的你设计一个医疗诊断智能体，你会如何设计系统来克服MYCIN的局限？在哪些垂直领域中，基于规则的专家系统至今仍然是比深度学习更好的选择？

答案：阻碍专家系统在医疗领域应用的其他因素：

法律责任：AI误诊了谁负责？医生？医院？开发者？法律上没有先例
伦理问题：病人信任的是人，不是一个黑箱程序做诊断
医生抵触：医生担心AI会取代自己，心理上排斥
更新成本：医学知识不断更新，维护600条规则的成本极高且容易过时
患者接受度：病人不愿意被一个"电脑程序"看病，尤其是重大疾病
缺乏解释性：虽然有置信因子，但医生很难理解系统推理的全过程，不信任现在设计医疗诊断智能体：
用LLM加RAG（检索增强生成），从最新医学文献和指南中动态检索知识，而不是硬编码规则
输出必须附带引用来源和置信度，让医生有据可查
采用人机协作模式：AI辅助诊断，最终决策权交给医生
用强化学习对齐（RLHF），让模型学会符合医学伦理的回答方式
建立持续学习机制，模型定期用新病例数据更新规则系统至今更好的领域：

税务申报：规则明确、稳定，不需要"理解"，只需要严格执行
飞机安全检查：规则必须精确执行，不能有任何"幻觉"，深度学习的不确定性不可接受
法律合规审查：条款是白纸黑字，规则匹配比语义理解更可靠
工业控制系统：PLC编程等，逻辑确定性是安全底线共同特点：规则明确、容错率低、不需要常识推理

题目3：ELIZA扩展实践

为ELIZA添加3-5条新的规则，使其能够处理更多样化的对话场景。实现一个简单的"上下文记忆"功能。对比你扩展后的ELIZA与ChatGPT，列举至少3个维度上存在的本质差异。为什么基于规则的方法在处理开放域对话时会遇到"组合爆炸"问题？

答案：添加的规则（示例）： I want (...) 的匹配规则：回复"你为什么想要{0}？"、"得到{0}会给你什么？" I like (...) 的匹配规则：回复"跟我多说说{0}。"、"你喜欢{0}多久了？" I feel (...) 的匹配规则：回复"你为什么觉得{0}？"、"你感觉{0}多久了？" I hate (...) 的匹配规则：回复"什么让你讨厌{0}？"、"谈到{0}你是什么感受？" I am working on (...) 的匹配规则：回复"{0}进展怎么样？"、"你觉得{0}有挑战吗？" 上下文记忆功能：用一个字典存用户提到的信息，比如memory = {"name": "", "age": "", "job": ""}。匹配到关键词就存起来，比如用户说"my name is Tom"就存name="Tom"。后续回复里随机引用，比如"你之前说你叫Tom，你觉得呢？" ELIZA vs ChatGPT三个本质差异：

理解能力：ELIZA只是模式匹配，不理解语义，"I am not happy"会被当成"I am happy"处理；ChatGPT理解语义，能处理否定、反讽、隐喻
上下文记忆：ELIZA无状态，每次回复只看当前输入，无法多轮连贯对话；ChatGPT能记住整个对话历史
生成方式：ELIZA填预设模板，输出空间有限；ChatGPT逐词生成，输出空间无限，能创造全新回答组合爆炸的数学说明：假设词汇量为V，句子长度为N，理论上可能的句子组合数为V的N次方。例如V=10000，N=10，则组合数为10的40次方，天文数字。人工编写的规则最多覆盖几千到几万种，覆盖率接近于零。而且每加一条新规则可能和旧规则冲突，规则间的优先级管理复杂度随规则数量指数增长，最终系统变得无法维护。

题目4：明斯基的心智社会

在搭建积木塔的例子中，如果GRASP智能体突然失效了，整个系统会发生什么？这种去中心化架构的优势和劣势是什么？将"心智社会"理论与现在的多智能体系统进行对比。马文·明斯基认为智能体可以是"无心"的简单过程，这是否意味着"心智社会"理论在大语言模型时代不再适用了？

答案： GRASP失效后的后果： GET-BLOCK机构无法完成抓取动作，ADD-BLOCK机构失败，BUILDER机构的循环逻辑被中断，BUILD-TOWER目标无法达成。但SEE、FIND等其他模块不受影响，系统局部失效而非完全崩溃。去中心化架构的优势：鲁棒性强，一个模块挂了其他还能用；无需中央调度，设计简单；各模块可以独立开发和优化。去中心化架构的劣势：没有全局规划者，复杂协调任务效率低；模块间通信开销大；难以处理需要全局一致性的场景。与现代多智能体系统的对比：明斯基的智能体是"无心"的简单过程，只会做一件事；MetaGPT、CrewAI里的每个Agent都是强大的LLM，能推理和规划。明斯基强调去中心化的激活抑制信号协调；现在的系统更多靠预设计好的通信协议和任务分配。但核心思想一致：分工协作比单打独斗强。现代多智能体系统本质上就是"心智社会"的工程化实现。心智社会理论是否过时：

不过时。现代多智能体系统的架构思想就是"心智社会"：大任务拆成小Agent，各司其职。只是小Agent从简单规则变成了LLM，能力更强了，但分工协作的架构思想没变。明斯基的"涌现"概念在多Agent协作中依然适用：多个Agent的交互可能产生单个Agent做不到的能力。可以说LLM时代的多智能体系统是明斯基理论的增强版实现。

题目5：强化学习与监督学习

用AlphaGo的例子说明强化学习的"试错学习"机制是如何工作的。为什么强化学习特别适合序贯决策问题？训练一个会玩超级马里奥游戏的智能体，分别使用监督学习和强化学习各需要什么数据？在大语言模型的训练过程中，强化学习起到了什么关键性的作用？

答案： AlphaGo的试错学习机制：

AlphaGo和自己下棋（智能体在环境中行动）
走一步棋（执行一个action）
一局棋结束，看输赢（获得reward：赢=+1，输=-1）
根据结果更新策略：赢了的走法加强，输了的走法削弱
重复百万次，策略越来越强关键：AlphaGo不需要人类棋谱来"监督"每一步，只需要最终输赢作为奖励信号。为什么RL适合序贯决策：因为当前决策影响未来状态。下围棋时，第10步的选择决定了第11步的局面，第11步又影响第12步，每一步之间有因果链。RL能建模这种"前因后果"关系，考虑长期累积回报。而监督学习的数据是独立的，没有"前因后果"关系。超级马里奥的数据需求：监督学习方案：需要人类高手玩的录像，一帧帧标注"这个状态应该按哪个键"，数据难收集，且人类高手的玩法不一定是最优的，遇到没见过的关卡就懵了。强化学习方案：只需要游戏环境给的分数作为奖励，自己反复玩，从零开始探索，最终能发现人类都没想到的通关策略。结论：强化学习更适合。游戏是天然的RL环境，有明确奖励信号，可反复试错，不需要人工标注。 RL在LLM训练中的关键作用： RLHF（基于人类反馈的强化学习）。第一步用监督学习微调LLM；第二步让LLM生成多个回答，人类标注哪个好哪个差；第三步训练一个奖励模型来模拟人类偏好；第四步用PPO等RL算法优化LLM，让它生成人类更喜欢的回答。作用：让LLM不仅"会说话"，还"说人话"，符合人类的价值观、有用性、无害性。

题目6：预训练-微调范式

为什么说预训练解决了符号主义时代的"知识获取瓶颈"问题？预训练模型的知识绝大部分来自互联网数据，这可能带来哪些问题？你认为"预训练-微调"范式是否可能会被某种新范式取代？

答案：为什么解决知识获取瓶颈：符号主义的知识获取是人手动编写规则编码知识，专家经验难以转化为IF-THEN规则，知识是显式的，存在规则库里。预训练是从海量文本自动学习知识，不需要人工编码，模型自己从数据中提取，知识是隐式的，压缩在模型权重里。本质区别：知识表示从"人写规则"变成了"机器从数据中学"，从显式变为隐式。互联网数据的问题：

偏见和歧视：训练数据中的性别、种族偏见会被模型学到
错误信息：网上的错误内容也会被学到
隐私泄露：训练数据中可能包含个人信息
时效性：模型知识截止到训练数据的时间点缓解方法：数据清洗和过滤、RLHF对齐、人工审核和红队测试、持续更新训练数据。会不会被取代：短期不会，但会演化。预训练的经济学逻辑没变，用大规模计算换人力标注的trade-off依然成立。但可能会和符号方法深度融合，形成神经-符号混合架构。RAG（检索增强生成）可能是重要演化方向：不把所有知识都塞进模型权重，而是按需检索。纯微调可能被提示工程部分替代，但预训练本身不会消失。

题目7：智能代码审查助手

如果在符号主义时代（1980年代）设计这个系统，你会如何实现？会遇到什么困难？如果在没有大语言模型的深度学习时代（2015年左右），你会如何实现？在当前的大语言模型和智能体的时代，你会如何设计这个智能体的架构？对比这三个时代的方案，说明智能体技术的演进如何使这个任务从"几乎不可能"变为"可行"。

答案：符号主义时代（1980s）的方案：用预定义的代码规范规则（如"变量命名必须符合驼峰命名"、"函数不能超过50行"、"不能有未使用的import"），用正则表达式和AST解析逐条检查。困难：规则写不完，代码千变万化，规范只是冰山一角；无法理解代码逻辑，只能做表面检查；不同语言、不同框架需要不同的规则库，维护成本巨大。深度学习时代（2015）的方案：训练一个代码分类模型（如CNN/LSTM），在标注好的"有bug/无bug"数据上训练，用AST向量化作为输入特征。困难：只能做二分类（有bug/无bug），不能定位和解释bug在哪里；需要大量标注数据，标注成本极高；泛化能力差，训练数据中没见过的bug类型就检测不出来；不能理解代码的语义和意图。 LLM智能体时代（现在的方案）：感知：读取PR的代码diff。思考：LLM分析代码逻辑，规划审查策略。行动：调用AST解析工具检查规范、调用测试工具跑单元测试、调用静态分析工具。观察：拿到工具返回的结果。思考：综合所有信息，判断代码质量。行动：输出结构化审查报告（逻辑概括、BUG发现、改进建议）。核心模块：感知模块解析PR内容；规划模块决定审查策略；LLM核心理解代码语义，推理潜在问题；工具箱包含AST解析器、单元测试框架、静态分析工具；记忆模块记住项目的历史代码风格和常见问题。三个时代对比：符号主义时代：核心能力是规则匹配，只能检查命名规范等表面问题，主要瓶颈是规则写不完，任务几乎不可能完成。深度学习时代：核心能力是模式分类，只能判断有无bug，主要瓶颈是需要标注加不能解释，只能做简单判断。 LLM智能体时代：核心能力是语义理解加推理，能理解逻辑、定位bug、给建议，主要瓶颈是计算成本高，任务真正可行。核心突破：LLM能理解代码语义，不再靠死规则，而是真正"读懂"代码在做什么，然后推理出问题所在。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【从 while 循环到可视化智能体：深入拆解 Agent Loop、Codex 风格工具调用、OpenClaw 与 Hermes 背后的技术细节】

AtomGit开源社区

Berachain PoL Next：全面去BGT化，打造真实 ROI 的链上发动机

Berachain 正在对 PoL 机制进行升级，并将该计划命名为 PoL Next。事实上，Berachain 的 PoL Next 计划已经逐步开展，在此前其将 BGT 的通胀率从 8% 降至 5% ，就是该计划其中的一部分。而在下一阶段，Berachain 将全面“削藩”去 BGT 化，将全网的经济价值与治理权聚焦在 BERA 体系。同时其也将在后续推出 ERA（Emissions Retu

AtomGit开源社区

从ReAct到Agentic Workflow：AI Agent技术演进的完整脉络与未来走向

ReAct阶段要解决的核心问题：如何让LLM的推理过程和外部行动结合，通过真实观测结果修正幻觉，实现与外部世界的交互单智能体阶段要解决的核心问题：如何给Agent增加记忆能力、任务规划能力、错误反思能力，让单Agent可以独立完成复杂长周期任务Agentic Workflow阶段要解决的核心问题：如何实现多智能体的分工协作、工作流的标准化编排、企业级的可观测性与合规性，让Agent技术可以大规模落