第一章：机器能思考吗？

dfsj66011

410人浏览 · 2026-04-13 13:48:53

dfsj66011 · 2026-04-13 13:48:53 发布

第一章：机器能思考吗？——符号主义时代的兴衰

[!info]
在序章中，我们提出了一个贯穿全书的问题：为什么 ChatGPT 会出现"幻觉"？我们说，答案藏在历史里。而想要从历史中寻找答案，那我们要从一个更根本的问题开始——机器能思考吗？在试图回答这个问题的过程中，一代研究者走上了一条看似合理却最终碰壁的道路。也正是有前人不断的失败实验，才一步步引领我们走入今天的 AI 中。

[!question]
如果把人类的知识全都写成一条条井然有序的规则，那机器能用这些规则来"思考"吗？这条路能走多远，又在哪里遇到了迈不过去的障碍呢？

1.1、1950 年：一个问题的诞生

1.1.1 图灵的房间

1950 年的秋天，英国曼彻斯特。

有人邀请我们来回答这样一个问题：“我们造出来的机器，有一天会思考吗？”

他是谁？

图灵（Alan Turing，1912-1954），他被誉为计算机科学与人工智能之父。此外他还是一位密码分析学家，早在二战期间，他领导的 8 号小屋（Hut 8，密码破译站），就设计了多种加速破解德军密码的技术，破解了德国的 Enigma 密码机。他在破解截获的情报方面发挥了至关重要的作用，这些情报使盟军能够在大西洋战役和其他战役中击败轴心国，直接影响了战争的走向。

在他于 1950 年的论文《计算机器与智能》（Computing Machinery and Intelligence）中提出"机器能思考吗"这个问题时，他做的第一件事不是给出答案，而是把这个问题换了一种问法。

他在论文中探讨了"'机器能思考吗？'这个问题。但他指出，由于“思考”和“机器”这两个词都无法明确定义，我们应该“用另一个与其密切相关且措辞相对明确的问题来代替它”。

他设计了一个游戏，后来被称为图灵测试（Turing Test）：

让测试者通过键盘分别和一个人、一台机器进行对话。测试者看不到对面是谁，只能根据对话内容做判断。如果测试者无法区分——或者更精确地说，如果机器能在 30% 的时间里骗过测试者让他以为在跟人说话——那么，这台机器就可以被认为表现出了智能。

这个设计有一种优雅的务实主义：它绕开了"意识是什么"、"灵魂是什么"这些形而上的泥潭，把智能问题转化成一个可以用实验检验的行为问题。

但图灵测试的这种设计，也悄悄埋下了一个伏笔。它把"智能"的标准定义成了"在语言上骗过人类"。这意味着，一个机器只要能生成足够流畅、足够像人的语言，就算通过了测试——不管它实际上理不理解自己说的是什么。

七十年后，当 ChatGPT 能够生成流畅的文本，却同时会一本正经地说出根本不存在的事实时，我们在图灵测试的这个设计里再次看到这个问题的影子。

但在 1950 年，没有人想这么多，一代研究者的心潮就这样被点燃了起来。

1.1.2 达特茅斯的夏天

1956 年，美国新罕布什尔州，达特茅斯学院。

夏天，一群年轻学者聚在一起开了一个研讨会。这次会议的提案者之一是约翰·麦卡锡（John McCarthy，1927-2011，AI 命名者），一个数学家出身的计算机科学家，他在提案中写下了这样一句话：

我们提议于 1956 年夏季在新罕布什尔州汉诺威市的达特茅斯学院开展一项为期两个月、由十人参与的人工智能研究。该研究将基于以下假设展开：学习的每个方面或智能的任何其他特征原则上都能被精确描述，从而让机器进行模拟。我们将尝试探索如何让机器使用语言、形成抽象概念、解决目前人类专属的各类问题并进行自我改进。我们认为，若精心挑选的科学家团队能共同研究一个夏天，就有望在这些问题的某个或多个方面取得重大突破。

“人工智能”（Artificial Intelligence）——这个词，就在这里第一次被正式使用。

图 1.1：AI 研究的先驱者们（达特茅斯会议部分参与人员）

参加这次会议的人，后来都成了这个领域最重要的奠基者，尤其是该项目的四位组织者，克劳德·香农（Claude Shannon，1916-2001，信息论之父)、约翰·麦卡锡、纳撒尼尔·罗切斯特（Nathaniel Rochester，1916-2001，诺贝尔经济学奖得主）和马文·明斯基（Marvin Minsky，1927-2016），被认为是人工智能的奠基人之一。

这些人在会上分享了各自的想法，争论了很多问题，可直到最后也没有达成什么统一的结论。但他们有一个共同的信念，或者说共同的愿景：

用机器模拟人类智能，在原则上是可能的，而且可能比我们想象的更快实现。

其中，艾伦·纽厄尔（Allen Newell，1927-1992）和 赫伯特·西蒙（Herbert A. Simon，1916-2001）在会上展示了他们已经写出的一个程序，叫做"逻辑理论家（Logic Theorist，另有一作者为 Cliff Shaw）"。这个程序能自动证明数学命题——它证明了怀特海和罗素《数学原理》第二章中前 52 个定理中的 38 个。对于其中一个定理，程序给出的证明甚至比书中作者费力手工推导出的证明更为简洁。它是第一个专门设计用于执行自动推理的程序，并被誉为“第一个人工智能程序”。

事后，西蒙激动的对他研究生班的学生说：“圣诞节期间，我和阿尔·纽厄尔发明了一台会思考的机器。” 他还写道：”我们发明了一种能够进行非数值思考的计算机程序，从而解决了久负盛名的身心问题，解释了由物质构成的系统如何具有心灵的属性。“

这是 AI 历史上第一个高光时刻，也是乐观主义的起点。

1.2、符号主义的核心假设

1.2.1 “智能 = 符号操作”

达特茅斯会议之后，一种明确的研究范式开始成形，历史上将其称为符号主义（Symbolic AI），或者经典 AI（Classical AI）。符号主义在 AI 的早期（从大概 20 世纪 50 年代中期到 90 年代中期）一直是人工智能研究的主导范式。那时的研究人员们坚信，符号方法是有可能成功创造出具有通用人工智能的机器。那么什么是符号主义呢？

符号主义的核心假设可以用一句话表达：

智能的本质，是对符号的操作。

"符号"是什么？它是任何可以被离散表示的东西：词语、命题、规则、逻辑关系、数学对象等等。而所谓的思考，就是对这些符号按照某种规则进行变换和推理。

在 17 世纪，数学家莱布尼茨（Gottfried Leibniz，微积分创立者之一，）就梦想设计一种"通用计算语言"（characteristica universalis），能够表达数学、科学和形而上学的概念。他希望创建一种在通用逻辑计算或推演计算器框架内可用的语言，让所有的知识都能被形式化，所有的争论都能被"计算"出答案——就像算术题一样。

符号主义继承了这个梦想，并试图在计算机上实现它。

这个假设有很强的直觉基础。我们不妨来想一想人类最引以为豪的那些智力活动：数学证明、棋局分析、法律推理、科学演绎。这些活动都有一个共同结构：从一些前提出发，按照明确的规则，一步步推导出结论。逻辑是可以被形式化的，推理是可以被算法化的。

如果智能的核心是这种推理，那么计算机不就是天然的智能载体吗？ 因为计算机本来就是规则的执行器。

更重要的是，这个假设为 AI 研究提供了一条清晰的路线图：我们只需要把人类的知识写成规则，然后把规则写成程序，再把程序运行在计算机上。智能，就这样被制造出来了。

这听起来很合理。因此当时的人们觉得，要实现这样具备通用人工智能的机器，这只是一个工程实施上的问题。

1.2.2 通用问题求解器的野心

纽厄尔和西蒙在达特茅斯会议之后，便雄心勃勃地开发了"通用问题求解器"（General Problem Solver，GPS，1957 年）。

注意这个名字：通用。他们的目标不再是解决某一个具体问题，而是在试图构建一个能解决任何问题的通用推理引擎。

与之前的逻辑理论家项目不同，GPS 的核心思想叫做"手段-目标分析"（Means-Ends Analysis）：

识别当前状态和目标状态之间的差距
找到能够减小这个差距的操作
执行操作，更新当前状态
重复，直到达到目标

这个思路在特定的、被良好定义的问题上很有效。比如汉诺塔问题、积木搬运问题。在这些问题里，状态是明确的，操作是有限的，目标是清晰的，GPS 可以系统地搜索解空间。

当纽厄尔和西蒙在展示这个系统时，观众被震惊了——一台机器，在没有被告诉具体步骤的情况下，自己"想"出了解题过程。这在当时是令人窒息的成就。

图 1.2：汉诺塔游戏示意图，将一摞大小不同的圆盘从一个柱子上，可借助第三个柱子整体挪到第二个柱子上，挪动过程中要求大圆盘禁止压在小圆盘上。

也有人注意到了一些让人担忧的方面：GPS 能够解决像汉诺塔这样的简单问题，是因为这些问题可以被充分形式化，可现实世界的问题，往往是开放的、模糊的、需要依赖大量背景常识的，或者说解空间在计算上是不可行的。

但这个担忧，被当时的乐观主义气氛所淹没了。

1.2.3 ELIZA：早期的"语言欺骗"

1966 年，麻省理工学院，约瑟夫·韦泽鲍姆（Joseph Weizenbaum）写出了一个叫做 ELIZA 的程序。

ELIZA 模拟的是一位以卡尔·罗杰斯（Carl Rogers）式"以患者为中心"疗法著称的心理治疗师。它的工作原理非常简单：

识别用户输入中的关键词
根据关键词套入预定的对话模板
把用户的陈述变成问题，反射给用户

比如，用户说：“我最近总是感到很沮丧。” ELIZA 会回答：“你说你最近总是感到很沮丧，能跟我说说这是怎么回事吗？”

用户说：“我和我妈妈的关系很紧张。” ELIZA 会回答：“你的家庭里还有谁对你很重要？”

这套把戏并不复杂。韦泽鲍姆自己后来说，他从来没打算让人相信这是真的智能——他只是想展示人机对话的可能性。

但令韦泽鲍姆震惊的是：很多人真的相信了。

包括他的秘书——一个见过他写这个程序的全过程的人——有一次要求他离开房间，说她想和 ELIZA “私下谈谈”。

许多学者认为该程序能够对许多人产生积极影响，特别是那些有心理问题的人，因为有些用户和 ELIZA 对话了很长时间之后，声称感到"被理解了"。其中还有 MIT 的一位精神科医生看到 ELIZA 之后，严肃地建议：应该把类似 ELIZA 的程序引入临床实践。

韦泽鲍姆被这种反应吓到了，尽管 ELIZA 能够参与对话，但它无法真正理解对话内容。然而，许多早期用户都坚信 ELIZA 具有智能和理解能力，尽管韦泽鲍姆一再强调并非如此。后来他花了接下来的职业生涯中的大量时间写了一本书《计算机能力与人类理性》，专门讨论人们为什么倾向于过度拟人化计算机，以及这种倾向的危险性。

值得一提的是，ELIZA 的源代码自 1960 年代创建以来一直缺失，因为当时通常不发表包含源代码的文章。后来 MIT 档案馆发现了 MAD-SLIP 源代码，并在各种平台上发布，因此如果你对此感兴趣，完全可以网络搜索一番，并自己部署亲自体验一下。

ELIZA 效应揭示了一件让后来的 AI 研究者反复面对的事：语言流畅不等于理解，外表聪明不等于内在智慧。 可是在图灵测试的框架下，这两者很难区分。

1.3、专家系统的辉煌年代

1.3.1 知识的形式化

1960 - 1970 年代，AI 研究者们意识到”通用推理“太难了——”通用“就意味着你需要涵盖所有可能的情况，这很快就变成了一个无穷无尽的任务。

所以他们转向了一个更务实的策略：把范围缩小到特定的专业领域，在那里，知识是有限的，规则是可以被提取的。

这就是专家系统（Expert System）的思路。

图 1.3：专家系统的典型结构

专家系统的工作方式是：

知识获取：访谈领域专家（医生、工程师、地质学家……），把他们的经验提取出来，写成"如果……那么……"的规则（Production Rules）
知识库（Knowledge Base）：用来存储所有的规则
推理引擎（Inference Engine）：根据用户输入，在知识库里匹配规则，进行推理，给出结论
解释模块：说明推理的路径（“我给出这个结论，是因为条件 A 触发了规则 B，然后……”）

这个结构的最大优势是可解释性。专家系统不是一个黑盒——它可以告诉你，每一个结论是如何推导出来的。在需要承担责任的场景（医疗、法律、工程），这一点非常重要。

1.3.2 MYCIN：在生死线上的系统

MYCIN（1972 年，斯坦福大学）是专家系统历史上最著名的案例，也许也是最重要的早期 AI 应用。

MYCIN 由 Edward Shortliffe 在博士期间开发，它的设计初衷是面向的是一个真实的临床难题：细菌性感染的快速诊断和抗生素选择。

这个问题在 1970 年代极其重要。细菌感染，尤其是败血症（血液感染），死亡率极高，必须在几小时内给出治疗方案——但细菌培养需要 48 小时才能出结果。医生必须在不确定的情况下做出判断，选择合适的抗生素。

MYCIN 的知识库包含了大约 600 条规则，每条规则都附有一个"可信度因子"（Certainty Factor）来处理不确定性。规则的例子（形式化）如下：

如果：
  患者患有菌血症（可信度：0.7）
  且 感染很可能来自胃肠道（可信度：0.5）
  且 患者近期做过腹部手术（可信度：0.9）
那么：
  该微生物是大肠杆菌的可能性：0.7
  该微生物是克雷伯菌的可能性：0.4

MYCIN 可以根据患者的症状、检查结果、用药史，推理出最可能的致病菌，并推荐相应的抗生素和剂量。

1979 年，斯坦福医学院设计了一套极其严密的双盲、分层评测流程，重点考察其对细菌性脑膜炎的治疗建议能力。他们从斯坦福附属县医院的病历中，由一位不了解 MYCIN 内部规则的医生，筛选出 10 例诊断挑战性很高的急性感染性脑膜炎病例，这就是测试集。首先是”盲生成“阶段，除了 MYCIN，作为人类对照组，共有 8 人参与其中，其中包括 5 位传染病学教授、1 位资深研究员、1 位住院总医师、1 名高年级医学生，所有参与者独立阅读相同的 10 份病例摘要，并给出自己的处方建议。接下来是“盲评审”阶段，评审团由 8 位外部顶尖传染病专家组成，这些专家仅收到病例摘要和 10 份匿名方案（打乱顺序），他们完全不知道哪个方案来自计算机、哪个来自学生或教授。

评审结果让人吃惊，MYCIN 获得了 65%的接受度评分，这与五位教师的 42.5%至 62.5%的评分相当，且明显优于住院医师 (~43%) 和医学生 (~30%)。这在当时是极其令人震惊的结果，一个程序，在专业医学判断上，能和训练多年的专科医生相比肩。这不是科幻小说，这是 1979 年发生的事情。

当然，MYCIN 从来没有真正进入临床使用——部分原因是当时的医疗体系对计算机辅助诊断的法律责任问题没有解答框架，部分原因是 MYCIN 运行需要大型机，不够实用。但它在技术上的成功，让整个领域看到了可能性。

1.3.3 R1/XCON：工厂里的专家

如果说 MYCIN 是实验室里的“学术明星”，那么 R1（后改名 XCON） 就是 AI 史上第一个真正赚到大钱的“商业巨兽”。它是专家系统黄金时代的巅峰之作，证明了 AI 不仅能通过图灵测试，更能直接创造巨额商业价值。

1978 年，麦德莫特（John McDermott）在卡内基梅隆大学开发了 R1，目的是帮助数字设备公司（Digital Equipment Corporation，DEC）解决一个真实的商业痛点：

DEC 销售的是可以高度定制的小型机（VAX 系列）。客户可以选择不同的 CPU、内存、外设、软件组合。问题是，不同组件之间有复杂的兼容性约束——某些内存模块只能和特定的机箱配合，某些外设需要特定的接口卡，某些软件需要特定的内存量。

配置一台正确的 VAX，需要经验丰富的工程师花数小时来检查，而且错误时有发生——客户收到机器，发现缺了一块板子或者装了不兼容的组件。

R1 把这个配置过程编码成了规则：最终约有 2500 条规则，覆盖了 DEC 产品线中大量的组件组合和约束条件。当销售员输入客户的需求后，R1 会自动生成一份完整、正确的配置清单。

R1 的效果简直可以说是惊艳，到 1986 年，它已处理了 80,000 个订单，准确率达到 95-98%。它可以减少技术人员出错时需要向客户提供免费组件的需求、加快组装过程并提高客户满意度，据估计，它每年可为 DEC 节省 2500 万美元，

这是 AI 历史上第一个可以量化、可以大规模复现商业价值的案例。可以说 R1/XCON 是 AI 工业化的开山之作。它完美展示了在边界清晰的复杂领域，基于规则的专家系统可以超越人类专家。因此当这个消息传出去之后，整个产业界的兴趣被点燃了。1980 年代，专家系统开始大规模商业化。杜邦、通用电气、波音、美国银行……大量企业开始建立自己的专家系统。

AI 的第一个商业春天到来了。

1.4、崩塌：几堵无法逾越的墙

1.4.1 第一堵墙：知识获取的瓶颈

1980 年代中期，构建专家系统的团队开始越来越频繁地遭遇同一个问题：专家说不清楚自己是怎么做决定的。

这并不是因为相关领域的这些专家不配合，也不是因为知识抽取工程师的技术能力不够。这是一个更根本的认知科学问题。

1966 年，哲学家 迈克尔·波兰尼（Michael Polanyi）在他的著作《默会维度》（Tacit Dimension）中提出了一个概念，叫做隐性知识（Tacit Knowledge）。它是指那些难以提取或表述的知识，这些知识难以通过语言或文字传达给他人，比如个人智慧、经验、洞察力、运动技能和直觉等。正如波兰尼自身所说的那样：

“我们知道的，远比我们能说出来的多。”（we can know more than we can tell.）

我们不妨来想象一下，比如在医院中可能有一位二十年经验的骨科医生，当病人拿着一张 X 光片摆在他面前时，他看一眼，可能三秒钟之内就能给出诊断：这是股骨颈骨折，而不是股骨干骨折，骨折线走向表明可能需要手术。

他怎么知道的？

如果你问他，他会说几条原则：骨折线的角度、骨密度的变化、关节间隙……但他自己也知道，这些原则捕捉不了全部。那个三秒钟的判断，是二十年里看过几千张 X 光片积累下来的模式识别，很多部分是无法用语言表达的。

认知心理学把这类知识叫做"程序性记忆"（Procedural Memory）——它存储了怎么做（knowing how），而不是知道什么（knowing that）。 通俗点说，这是一种下意识的执行过程，它是在不自觉的情况下帮助我们执行特定类型的任务，而无需我们对这些先前经验有意识的认识。

就像我们学会骑自行车以后，却无法言传式的教会我们的孩子，我们自己也说不清楚，骑车的时候大脑在做什么来保持平衡，但只要我们踩上脚踏板，车子就会自己往前平稳的前进。再比如，专业钢琴家演奏时手指的位置、力度、时机，复杂到没有任何人能完整地用语言描述。象棋大师看到一个棋盘，"感觉"到哪个方向危险，这种直觉经过了无数对局的积累，却无法被完整地提取出来写成规则。

这意味着，知识工程师访谈领域专家时，得到的永远只是冰山的上半部分——那些可以被说出来的、显性的知识。而在水面以下，有更多关键的、经验性的、直觉性的知识，却永远无法被转化成规则。

这不是一个可以通过"更仔细地访谈"来解决的问题。这是人类认知的基本结构。

因此知识工程团队陷入了一个奇怪的困境：知识库写了数千条规则，但系统在某些看起来很简单的情况下会做出完全错误的判断；专家看了之后会说"这不对"，但说不清楚哪里不对，也说不出正确答案是怎么来的。

1.4.2 第二堵墙：规则的组合爆炸

知识获取的过程虽然很困难，但还或许还不是最根本的问题。因为即便我们假设知识工程师有办法提取所有的显性知识，另一个问题也会随之出现：规则的数量会以惊人的速度增长，最终失控。

让我们来做一个简单的问题估算。

假设我们在写一个理解日常语言的专家系统。

首先，我们需要处理语法。以英语为例，英语语法大概有几百条核心规则。但语言是充满例外的，每一条规则都有例外，每一个例外都需要一条新规则来处理。语言学家估计，完整描述一种自然语言的语法，可能需要数千条规则。

然后，我们还需要处理语义——词义的消歧。例如，单词 “bank” 可以是金融机构，银行的意思，也可以是河岸的意思。“apple” 可以是水果，也可以指代苹果公司。同一个词在不同上下文里含义可以完全不同。覆盖日常英语里所有多义词的所有含义，需要多少规则？没有人真正知道，但肯定是个荒唐的大数字。

再然后，我们还需要处理语用——语言在实际使用中的功能。“你能把窗户关上吗？“这句话的字面意思是问"能力”，但实际功能是发出"请求”。"这屋子里好热"在合适的语境下，是在请求打开空调。"你最近很忙吗？“可能是真的在问，也可能是在准备说"那你能不能帮我一个忙……”

处理语用需要理解说话者的意图，而意图又依赖于无穷无尽的背景知识和情境。

规则的数量在每一层都在指数级增长，这就是组合爆炸，并且当规则过于庞大，难免就会出现规则冲突，这就可能需要更多"元规则"来仲裁冲突。比如在我们的常识中，哺乳动物典型特征是胎生的，而带有宽扁角质喙和带蹼的脚的动物很符合鸟类特征，直到人类遇到了鸭嘴兽这个“怪物”，它身上甚至还有爬行动物的特征。规则冲突的症结，在于现实世界的知识绝大多数都不是“非此即彼”的布尔逻辑，而是充满概率、灰度与例外的连续谱系。

1984 年启动的 Cyc 项目，是对这个问题最勇敢的正面强攻。项目的创始人 Douglas Lenat 相信，只要把足够多的人类常识写进知识库，AI 就能真正理解世界。

截止到 2017 年，Cyc 积累了大约 2450 万条规则，覆盖了大量的常识领域——动物有身体、液体会流动、死去的生物不能行走……但它仍然无法完成真正意义上的常识推理。它可以回答"熊有腿吗？“但无法回答"如果熊在河里游泳，它的腿是湿的还是干的？”——因为这需要同时整合"熊有腿"、“游泳时身体在水里”、"在水里的东西会变湿"多条规则，以及大量隐含的背景知识，而它在面对这类多跳推理时极其脆弱。

这就是组合爆炸的现实：现实世界的复杂性，无法被穷举。

图 1.4：规则复杂性的指数增长示意图

1.4.3 第三堵墙：确定性逻辑无法处理真实世界的不确定性

符号主义的基础是形式逻辑。而形式逻辑的表达形式是确定性的：前提 A 成立，规则 B 成立，则结论 C 一定成立。

但真实世界是概率性的。

来看几个例子：

医疗诊断：病人发烧、咳嗽、胸痛。这是肺炎吗？可能是——但也可能是其他很多种疾病。症状本身就是不确定的，同样的症状可能对应很多种疾病。最优的决策不是"因为 A，所以一定是 B"，而是"因为出现 A，最可能是由于 B（概率 60%），其次是 C（概率 25%），可以先按 B 治疗，同时做 D 检查来排除 C"。

故障诊断：一台机器出现了异常噪音，同时温度偏高。是轴承磨损吗？是润滑油不足吗？还是冷却系统出现了故障？这些原因都会导致这两个症状，而且可能同时存在。而真实的诊断是在多种假设下的权衡。

自然语言理解：“小明告诉小王他考试通过了。”——这里的"他"，是小明吗，是小明考试通过了，把这个好消息告诉了小王吗？是小王吗，是小明在直到这个消息后通知给了小王吗？是第三人吗，可能是小明和小王说，小李的考试通过了吗？这个句子在语法上是歧义的，想要精确的理解它需要依赖上下文，而上下文本身可能也是不确定的。

MYCIN 引入了"可信度因子"来部分处理这个问题，但这只是一个打补丁式的解法。可信度因子的组合规则在数学上并不严格，而且在多步推理时累积误差的方式并不优雅，也不准确。

更根本的问题是：形式逻辑的语言，从设计上就不适合表达概率。 把概率硬塞进逻辑框架里，就像用锤子拧螺丝——能用，但别扭，而且有它自己的问题。

而真正能在概率框架下工作的系统，需要等到贝叶斯网络（1980 年代）和统计机器学习（1990 年代）的成熟——这是下一章的故事。

1.4.4 第四堵墙：系统不知道自己不知道

这也许是最致命的问题，但也是最难被察觉的：专家系统不知道自己的知识边界在哪里。

MYCIN 在血液感染诊断上表现出色——这是因为这个问题是在它被训练过的领域内。但如果一个护士误输入了一个完全不相关的问题，比如"骨折了应该怎么处理"，MYCIN 不会说"这不在我的专业范围内"。它会尝试用血液感染的规则去套，给出一个荒唐的"回答"——或者直接卡住，没有输出。

R1/XCON 能配置 VAX 机器，但它不知道 “VAX 是什么”——它只是在执行规则，没有对 VAX 的任何理解。如果 DEC 推出了一款新机型，所有关于这款新机型的规则都需要再次从头手工添加进知识库。

这种知识边界的不透明性，在实际应用中是极其危险的。一个不知道自己不知道的系统，和一个骄傲地给出错误答案的人一样危险。而且，这个问题无法在符号主义的框架内修补——因为知识库里有的，系统就"知道"；知识库里没有的，系统就会瞎猜或者崩溃。这是框架本身的局限。

1.5、两次 AI 寒冬

1.5.1 光辉时刻的终结

在 AI 的早期发展史，一路之上始终充满了乐观派的激情澎湃，也始终在遭受质疑与批评，尤其是到了大约在 1974-1980 年期，AI 经历了其发展史上第一次严重的“寒冬（AI winter）”时刻。

在 1973 年，莱特希尔（James Lighthill）向英国政府提交了一份著名的书面报告，俗称 Lighthill 报告。莱特希尔受英国政府委托评估 AI 研究的前景，他的结论是：AI 在通用目的的研究上，几乎没有取得实际进展；它在特定的、被良好定义的领域里有一定价值，但在现实复杂性面前，AI 的能力会遭遇"组合爆炸"。这份报告直接导致了英国政府大幅削减 AI 研究资金。

这份报告在发表时引发了强烈争论。许多 AI 研究者认为莱特希尔不够了解这个领域的潜力，批评声不断。但历史证明，莱特希尔的诊断基本上是准确的——至少对于符号主义路径而言。

AI 寒冬（AI winter）一词实际上并不是在这个时期出现的，而是在 1984 年，由顶尖 AI 研究人员罗杰·香克和马文·明斯基警告商界，1980 年代对 AI 的热情已经失控，失望必将随之而来。他们描述了一种连锁反应，类似于“核冬天”，从 AI 界的悲观情绪开始，接着是媒体的悲观报道，然后是资金的大幅削减，最后是严肃研究的终结。三年后，价值数十亿美元的 AI 产业开始崩溃。

1987 年，专门为 AI 和符号主义设计的 Lisp 机器（Lisp Machines）市场崩溃了。这是一种运行速度极快的专用计算机，专门优化了 Lisp 语言（当时 AI 研究最常用的编程语言）的执行效率。1980 年代初，它们是 AI 实验室的标配，公司估值高达数亿美元。

随后，价格更便宜、通用性更强的 PC 和工作站开始崛起。通用硬件的性能提升速度（摩尔定律）让专用硬件的优势迅速消失。Lisp 机器公司纷纷倒闭，AI 硬件市场在几年内从数亿美元萎缩到接近于零。

与此同时，企业界对专家系统的热情也在退潮。维护专家系统的成本远超预期：每次业务规则变化，都需要知识工程师重新整理知识库；系统会在没有预警的情况下在边缘案例上失败；系统与系统之间无法共享知识，每个领域都需要从零开始构建。

DARPA 在 1987 年大幅削减 AI 研究经费。英国的 AI 项目几乎全面停止。学术界的 AI 招聘也大幅萎缩。

而从 1987- 2000 左右的这段时期，一般被认为是 AI 的第二次寒冬。

AI 的两次寒冬都不是一夜之间发生的崩塌，而是持续数年的信心流失和资金撤退。、

图 1.5：AI 早期发展的时间线，以及两次寒冬时期的低谷态

1.5.2 寒冬的真实原因

关于 AI 寒冬的原因，一种普遍的认识是，由于比较普遍的现象是研究者和企业的预期过于乐观，而实际上的进展并没有兑现这些承诺。人家认为 AI 发展史上的“寒冬”并非简单的技术停滞，而是期望值断崖式下跌导致的资金与信任双重崩盘。

这个说法没错，但还不够深刻。

AI 寒冬的根本原因，是一种范式走到了它的认知边界。

符号主义的核心假设——“智能 = 符号操作”——在某些高度形式化的领域里是成立的。数学证明、棋局分析、工厂排班，这些问题确实可以被形式化，规则确实可以被写出来，专家系统也确实可以做得比人更快、更准确。

但这些问题，恰恰是人类智能中最不具代表性的部分。

人类最自然的智能——认识面孔、理解语言、感知空间、习得运动技能——这些能力，又恰恰是最难用规则表达的。你能用规则描述怎么认出你妈妈的脸吗？你能用规则表达"这个人说的话听起来真诚"是什么感觉吗？

研究者们花了三十年，才清晰地意识到：他们在试图用一个适合处理形式化知识的工具，去处理大量无法被形式化的隐性知识。

这不是工程的失败，而是假设的局限。

这个教训在 AI 历史上反复出现： 当一种方法取得突破性进展时，它往往是在它真正擅长的那个子集上取得突破。把这种成功外推到整个智能问题，往往会导致严重高估。

1.6、符号主义留下的遗产与反思

1.6.1 未竟的事业

正如我们在 1.3.1 章节中所言，符号主义直至今日，实际上并没有消亡。也许我们可以说，它已经从舞台中央退居到了基础设施层，成为确保确定性、可解释性和合规性的“隐形骨骼”。

在那些真正需要可解释性和规则明确性的场景里，符号推理系统今天仍然在运行，例如：

在核电站、化工流程、飞机航电等高风险工业环境中，“可预测、可验证”远比“偶尔表现出色”重要得多。这里的关键控制逻辑通常可以被形式化建模与验证，证明在给定边界条件下，系统必然对特定输入产生确定性输出，从而最大程度降低不确定性带来的风险。当事故发生时，调查人员可以沿着规则链逐步回溯，明确问题来源——是传感器异常、规则覆盖不足，还是人为操作失误。与此同时，这类规则引擎通常具备毫秒级响应能力，其关键决策路径不依赖不稳定的统计模式，从而保证系统行为的可控性与一致性。

现代大语言模型的输出过滤与约束机制，在本质上也是一种“弱符号主义”的回归。模型本身是概率性的、不可解释的，但在其输出之后，往往会叠加一层确定性的规则系统，对结果进行裁剪、重写或拒绝。例如，敏感信息检测、合规性过滤、格式校验等。这些规则可以被逐条审查和修改，确保在特定触发条件下，系统必然执行特定动作（如拦截、替换或报警），从而在一个本质上“不可控”的生成模型之上，构建出一层“可控边界”。当问题发生时，工程师可以清晰地区分：是模型生成阶段的偏差，还是后处理规则的覆盖不足，而不是陷入完全不可解释的黑箱之中。

正如上述示例所展示的，符号主义与神经网络的结合，正在成为一种具有现实意义的系统性方向。当神经网络擅长从复杂数据中提取模式，却难以提供稳定解释时；当符号系统能够提供清晰的逻辑结构与可验证推理，却依赖人工建模与知识编码时，两者的互补性便变得尤为突出。在这种架构中，神经网络负责感知与表征世界的复杂性，而符号系统负责约束、推理与决策的可解释性，从而在“表达能力”与“可控性”之间建立一种新的平衡。

1.6.2 三个教训

符号主义的兴衰给后来所有的 AI 研究者留下了三个深刻的教训，这三个教训在后来的每一次技术转折中都有回响：

教训一：大量知识是隐性的，很难被完整的提取。

不是人类不聪明，而是有些知识本身就是以无法言说的形式存在于大脑里。任何依赖"把知识提取出来"的方法，都有一个结构性的上限。这个教训，是后来统计学习和深度学习范式的出发点——不要问专家，让数据说话。

教训二：规则无法覆盖现实世界的复杂性。

不是规则写得不够多，而是现实世界的组合复杂度从根本上超出了人类能够穷举的范围。这个教训，是后来"让模型从数据中学习"比"手写规则"更强的根本原因——数据里的模式比人类能写出的规则更丰富。

教训三：确定性逻辑不适合表达概率性的现实世界。

不是逻辑本身有问题，而是它的"确定性"假设与现实的"概率性"之间存在根本性的不匹配。这个教训，是概率图模型、贝叶斯学习、以及后来深度学习的概率建模框架的动力来源。

1.7、边界与局限：从符号主义到下一个时代

再经历了两次 AI 寒冬之后，AI 研究并没有因此而消亡，而是悄悄地发生了路径分叉。

一部分研究者继续改进符号系统，往更精细的知识表示（本体论、描述逻辑）方向走。另一部分研究者则转向了完全不同的方向：如果知识不能被提取，能不能让机器从数据里自己学出来？

而这个新的方向，也有两条平行的探索路线，它们几乎同时在进行：

路线一：统计学习（下一章的主题）——用概率和统计替代确定性规则，把分类、回归、聚类问题转化为数学优化问题。这条路线在 1990 年代取得了巨大成功，发展出了支持向量机、随机森林、梯度提升等有力武器。

路线二：神经网络（第三章的主题）——试图用软件模拟神经元的连接结构，让网络从数据中"自发地"形成内部表示。这条路线在 1960 年代有过短暂的高潮，然后沉寂了近三十年，曾被大多数人认为是死路一条。

但在统计学习统治 AI 领域的整个时代，有几个人没有放弃过神经网络。

他们的坚持，最终在 2012 年引爆了整个领域。而这，又是后来的故事了。

作为本章的结尾，我们可以稍加总结，符号主义的关键瓶颈，并不在于“用规则表达知识”这一思想本身，而在于规则的来源与规模边界。在经典范式中，这些规则必须由人来显式编写，而人的认知与工程能力决定了这些规则天然是局部的、有限的、带强假设的。当系统面对现实世界中持续变化、长尾分布与组合爆炸式复杂性时，这种“手工规则体系”不可避免地遭遇覆盖能力的上限。

于是，下一个时代真正要面对的问题，逐渐从“规则是否正确”转变为：规则的生成机制能否可以被自动化、规模化，以及是否必须依赖人工显式设计。

这个问题的重心转移，成为新范式的转折点。

1.8、知识自检

读完本章，你应该能做到：

用 3 句话向非技术朋友解释"符号主义 AI"的核心思路，以及它为什么失败
描述 MYCIN 和 R1/XCON 分别解决了什么问题，以及它们在当时的成就为什么令人印象深刻
解释"隐性知识"是什么，用一个具体的例子说明为什么它是知识工程的根本障碍
说出符号主义的几堵墙（知识获取、组合爆炸、不确定性），并解释每一堵墙为什么无法在符号主义框架内解决
说明 AI 寒冬不只是"泡沫破裂"，而是一种范式走到了认知边界

1.9、常见误解

❌ “专家系统失败是因为计算机性能不够强”
✅ 实际上：计算性能是次要因素。在符号主义时代，更快的计算机只是让系统能处理更大的规则集，无法解决知识获取瓶颈和组合爆炸这两个根本性问题。即使给 MYCIN 一台今天的服务器，它仍然无法从骨科 X 光片中做出准确诊断——因为骨科诊断所需的隐性知识根本没有被写进它的知识库。

❌ “图灵测试是检验 AI 能力的好标准”
✅ 实际上：图灵测试检验的是"在文字对话中骗过人类"的能力。这和真正的理解能力是两件事。ELIZA 的经历已经说明，一个完全没有理解能力的程序也能让很多人相信它是有感情的人类。而真正重要的推理、规划、常识理解等能力，并不在图灵测试的考察范围内。今天的大语言模型轻松通过图灵测试，但在很多真实的推理任务上仍然存在明显缺陷。

❌ “经历 AI 寒冬之后，专家系统被彻底抛弃了”
✅ 实际上：专家系统在需要可解释性、规则稳定的领域里，今天仍在使用。知识图谱、工业控制逻辑、合规检查系统，都有符号推理的影子。真正被抛弃的，是"符号主义能解决通用 AI 问题"的野心，而不是这种方法本身。

❌ “AI 研究者在寒冬期间都放弃了 AI”
✅ 实际上：正是在 AI ‘寒冬期间，神经网络的反向传播算法（1986年，Rumelhart）被重新发现和推广，统计机器学习的基础工作（贝叶斯网络、SVM 的早期理论）也在这个时期奠定。寒冬终止了符号主义路线的资金，但同时也迫使研究者认真思考替代路径，某种程度上加速了下一个范式的形成。

本章关键词

词汇	简明定义
符号主义（Symbolic AI）	用显式的符号和规则表达知识、通过逻辑推理实现智能的方法论，AI 的第一个主流范式
图灵测试（Turing Test）	Turing 提出的行为测试：如果机器在文字对话中无法被与人区分，则认为它表现出了智能
专家系统（Expert System）	将领域专家知识编码为"如果-那么"规则，通过推理引擎模拟专家决策的计算机程序
知识工程（Knowledge Engineering）	从领域专家处提取知识并将其形式化为规则的过程，专家系统的核心挑战
隐性知识（Tacit Knowledge）	Polanyi 提出的概念：人类掌握的大量知识无法用语言完整表达，只能通过实践习得
组合爆炸（Combinatorial Explosion）	当变量数量增加时，可能的组合数量以指数级增长，导致规则系统无法穷举现实复杂性
推理引擎（Inference Engine）	专家系统的核心组件，负责根据知识库中的规则和用户输入进行推理得出结论
AI 寒冬（AI Winter）	AI 研究资金和社会关注度大幅萎缩的时期，主要有两次（1970 年代末、1987-1993 年）
ELIZA 效应	人类倾向于对没有真实理解能力的计算机程序进行过度拟人化的现象