从图灵之问到大模型时代:人工智能发展简史深度综述
从图灵之问到大模型时代:人工智能发展简史深度综述
引言:智能的幽灵与机器的觉醒
在人类思想的长河中,对“人造生命”与“智慧仿制品”的迷恋几乎与文明本身一样古老。从古希腊神话中赫菲斯托斯铸造的青铜巨人塔罗斯,到《列子·汤问》中偃师进献给周穆王的歌舞倡优,再到玛丽·雪莱笔下的弗兰肯斯坦,这些早期想象承载着人类对赋予无生命物质以灵魂的原始渴望。然而,只有当这种渴望不再仅仅停留于神话与文学,而是开始与严谨的数学逻辑、可重复的实验科学相结合时,我们所说的“人工智能”才真正开始了其蹒跚却坚定的征程。
人工智能并不仅仅是一门技术,它是人类认知自我的一面镜子,是理性主义极致追求的体现,也是对“智能”这一古老概念永不停歇的解构与重构。回顾其发展史,我们看到的不是一条平滑上升的曲线,而是一幕充满了狂热、失望、傲慢与谦卑的交响乐。我们经历了符号主义的宏大叙事,经历了连接主义在沉寂中的坚守,也经历了统计学派在算力爆发后的华丽复仇。
本文将试图穿越这段跌宕起伏的岁月,从20世纪中叶的元数学争论开始,追踪智能如何从一个哲学思辨,演变为一个数学问题,进而转化为一个工程挑战,最终成为今日重塑文明形态的基础设施。我们将深入每一次“春天”背后的技术红利,剖析每一次“寒冬”背后的理论局限,并审视大语言模型在当下引发的范式革命——它不仅改变了机器的能力边界,更在深层次上挑战了我们对语言、知识和意识本身的理解。
第一章 形式化的黎明:从逻辑到机器的智能曙光 (公元前-1955年)
在真正的数字计算机诞生之前,人工智能的种子早已深埋于哲学家、数学家和逻辑学家的思辨之中。这段历史并非技术史,而是思想史。它解决的核心问题是:思维是否可以被形式化?如果能,任何操作这套形式系统的机器,无论其物理构造如何,是否都能展现出智能?
1.1 理性的机械化:从亚里士多德到莱布尼茨
对思维规则的探索始于亚里士多德。在其《工具论》中,特别是《前分析篇》里,他创立了形式逻辑的雏形——三段论。这是一种试图从已知前提中必然推导出结论的规则系统。亚里士多德的贡献在于,他首次表明,至少有一部分推理过程可以简化为某种近乎机械的规则运算。这种“通过符号操作进行推理”的思想,是人工智能最古老的哲学根基。
17世纪,托马斯·霍布斯在《利维坦》中提出了一个惊人的唯物主义命题:“推理不过是计算”。他认为,思维就是对感觉印象的加减运算。几乎在同一时期,戈特弗里德·威廉·莱布尼茨怀揣着一个更为宏大的梦想:通用表意文字。他设想了一种能够代表所有人类知识的、精确无歧义的符号语言,以及一套用于操作这些符号的演算规则。一旦出现争论,两位哲学家不必再无休止地辩论,只需坐下来说:“让我们来算一算吧。”莱布尼茨的梦想虽然在当时未能实现,但它精准地预言了现代人工智能的核心——符号操作与知识表征。他甚至建造了一种名为“步进计算器”的机械装置,能够执行加减乘除,这是对霍布斯“推理即计算”思想的物理实证。
1.2 数学的危机与图灵机:可计算性的边界
19世纪末至20世纪初,数学界发生了一场深刻的危机,其焦点在于数学基础的稳固性。戴维·希尔伯特提出了著名的“希尔伯特纲领”,希望将整个数学形式化,并证明其完全性与一致性。这一雄心勃勃的纲领看似将莱布尼茨之梦推向了顶峰。
然而,1931年,年仅25岁的库尔特·哥德尔发表了他的不完备定理,给了希尔伯特纲领致命一击。哥德尔证明,任何足够强大到包含算术的形式系统,要么是不完全的(存在无法证明的真命题),要么是不一致的(存在矛盾)。这意味着,存在一些真实的陈述,却永远无法通过机械推理从公理中推导出来。这似乎为“机器能否拥有等同于人类的思维”设置了根本性的限制——因为人类数学家似乎总能通过直觉“看穿”系统的局限。
但真正为人工智能提供理论基石的是阿兰·图灵。1936年,为回应希尔伯特的“判定问题”,图灵发表了划时代的论文《论可计算数及其在判定问题上的应用》。在这篇论文中,他构想了一种极其简单的抽象机器——图灵机。图灵机只有一条无限长的纸带、一个读写头和一个有限状态表,但它被认为能够执行任何可计算的函数。这就是丘奇-图灵论题的核心:一切直觉上可计算的函数,都是图灵机可计算的。
图灵机的伟大之处在于,它把“思维”或“计算”的概念从物理载体中彻底抽离了出来。只要一个物理系统能够模拟纸带、读写头和状态转移规则,无论它是由齿轮、继电器还是神经元构成,它在计算能力上都是等价的。这为人工智能的硬件无关性提供了理论依据。1945年,约翰·冯·诺依曼在这种思想的影响下,提出了存储程序概念,奠定了几乎所有现代计算机的体系结构。至此,物理机器准备就绪,只待为其注入“灵魂”。
1.3 控制论的交叉:目的论与反馈
在符号逻辑传统之外,另一支孕育了人工智能的思想潮流来自控制论。诺伯特·维纳在其1948年的著作《控制论》中,探讨了动物和机器中的通信与控制问题。控制论的核心概念是“负反馈”——系统通过感知行动的结果与目标之间的误差,不断调整自身行为以达到目的。
维纳、阿图罗·罗森布鲁斯和朱利安·比奇洛在1943年的论文《行为、目的和目的论》中,重新定义了“目的论”行为,认为它并非神秘的生命特征,而是可以通过负反馈机制在机器中实现的。这一观点极大地解放了思想:无需神秘的“生命力”,机器可以表现出有目的的、自适应的行为。
同期的英国神经学家W. 格雷·沃尔特建造了名为“马基纳”和“埃尔茜”的电子机械龟。这些简单的模拟电路机器,配备了光电传感器和触觉传感器,能够表现出趋光、避障、返回充电站等行为,甚至能在镜子前表现出某种“自我认知”的萌芽。这些看似简单的机械生命体,向社会直观地展示了机器行为可以多么富有“生命感”,为即将到来的人工智能运动提供了另一种基于行为和具身性的视角,尽管这条进路在日后漫长的符号主义主导的岁月里曾一度被边缘化。
第二章 黄金时代的诞生:达特茅斯与符号主义的宏大征途 (1956-1973)
随着数字计算机的诞生,一场关于“机器能否思考”的思想风暴即将从象牙塔的研讨会演变为一场全球性的技术运动。1956年的达特茅斯会议,被后世公认为“人工智能”这门学科的诞辰。
2.1 1956年夏天:一次命名一个学科的会议
1955年,年轻的学者约翰·麦卡锡向洛克菲勒基金会提交了一份资助申请,计划在次年夏天于达特茅斯学院举办一次为期两个月的研究研讨会。这份由麦卡锡、马文·明斯基、纳撒尼尔·罗切斯特和克劳德·香农联合署名的提案,首次使用了“人工智能”这一术语,以区别于在当时名声不太好的“控制论”。
提案的雄心壮志溢于言表:“我们将尝试使机器能够使用语言,形成抽象概念,解决现在只有人类才能解决的问题,并改善自身。”研讨会的核心假设是:“原则上,学习的每个方面或智能的任何其他特征,都可以被精确地描述,以至于可以制造一台机器来模拟它。”
1956年夏天,包括艾伦·纽厄尔、赫伯特·西蒙在内的约十名核心参与者聚集在一起。会议充满了自由奔放的讨论,虽然并未立即产生任何惊天动地的成品,但其最重要的成果是建立了一个学术共同体和一种坚定的信念。特别是纽厄尔和西蒙带来的“逻辑理论家”程序,这个能够证明罗素《数学原理》中部分定理的程序,被许多人视为世界上第一个人工智能程序。当西蒙宣称“我们发明了一种能够思考、学习和创造的计算机程序”时,那种征服一切难题的乐观主义开始弥漫。
2.2 符号的狂欢:物理符号系统假说与搜索
在达特茅斯会议后的十余年里,人工智能研究由一种被称为“符号主义”的范式所主导。其核心纲领后来被纽厄尔和西蒙明确表述为“物理符号系统假说”:一个物理符号系统具有实现一般智能行动的必要和充分条件。
简单来说,这一假说认为,智能的核心在于对符号的操作。这里的符号,是指物理上可识别的模式,可以通过规则进行组合和操纵,从而构成更庞大的表达式。知识被表示为显式的符号结构(如逻辑命题、规则、语义网络),而智能行为则被归结为对这些符号结构的启发式搜索。
这一时期涌现了大量令人眼花缭乱的成就,它们大多集中在被公认为代表人类智力顶峰的领域,如数学定理证明和棋类博弈。纽厄尔和西蒙的“通用问题求解器”试图将手段-目的分析作为一种通用的启发式搜索策略,应用于从逻辑证明到汉诺塔问题的广泛领域。它代表了那个时代的终极追求:寻找人类问题解决背后的普遍原则。
在棋类博弈领域,阿瑟·塞缪尔在1959年开发的跳棋程序不仅能与人类高手对弈,更重要的是,它引入了机器学习,能够通过自我对弈来提升水平。这种“超越其创造者知识”的能力,在1962年击败了一位康涅狄格州的跳棋冠军时,引发了巨大的社会震动。
在自然语言处理和理解方面,丹尼尔·博布罗开发的STUDENT程序能够解析和求解用英语呈现的高中代数文字题;约瑟夫·魏泽鲍姆在1966年创造的ELIZA,则通过模拟一名罗杰斯式心理治疗师的对话,以一种几乎是欺骗的方式展示了符号操作的威力。魏泽鲍姆震惊地发现,即使是深知ELIZA原理的人,也会对其产生情感依赖,这促使他后来写下了《计算机能力与人类理性》,成为对人工智能最深刻的批判者之一。
2.3 微观世界的幻象:积木世界与第一次寒冬的伏笔
随着研究的深入,真正的挑战逐渐浮现。早期程序在玩具问题上的成功,并不能顺利地扩展到复杂的现实世界。这导致了“微观世界”研究策略的流行,其中最具代表性的是马文·明斯基在麻省理工学院领导的积木世界项目。
在这个精心控制的简化环境中,研究者们开发了视觉程序来识别积木的边缘和形状,规划程序来指挥机械臂抓取和堆叠积木。特里·维诺格拉德在1972年开发的SHRDLU系统是这一时期的巅峰之作。SHRDLU可以在一个虚拟的积木世界里,通过自然语言与人类交互,执行命令、回答关于世界状态的问题、甚至解释自己的行为。它能理解“找到一个比你手里那块更高的积木,并把它放进盒子”这样的模糊指代。SHRDLU的流畅性让人们一度以为,全面的自然语言理解近在咫尺。
然而,这种成功是极其脆弱的。这些系统的能力严格受限于其预先编码的、关于这个微观世界的所有必要知识。它们没有任何学习能力来应对未曾预料的情况,一旦超出其知识边界,便会彻底失灵。这种对知识表征极度依赖的范式,其内在局限很快便将暴露在现实的严酷考验之下。
1973年,英国科学院的詹姆斯·莱特希尔爵士受政府委托,发表了著名的《莱特希尔报告》。报告严厉批评了人工智能研究,认为其在任何领域都未能实现其最初大肆宣扬的目标,其技术甚至不如传统的控制方法有效。这份措辞严厉的报告直接导致了英国政府对人工智能研究的全面断崖式削减,拉开了第一次人工智能寒冬的序幕。
第三章 联结主义的幽灵:神经网络的早期探索与沉寂
就在符号主义高歌猛进之时,另一条更为古老的思想潜流始终在酝酿。这条进路不从显式的逻辑规则出发,而是试图在结构和功能上模拟产生智能的生物基础——大脑。这便是联结主义。
3.1 神经元的数学抽象:麦卡洛克-皮茨模型
1943年,神经生理学家沃伦·麦卡洛克和数学天才沃尔特·皮茨发表了一篇具有里程碑意义的论文《神经活动内在思想的逻辑演算》。在这篇论文中,他们提出了第一个关于神经元的形式化数学模型——M-P模型。
这个极其简化的模型将神经元描述为一个多输入、单输出的二进制阈值单元。输入信号乘以不同的权重并求和,如果总和超过某个阈值,神经元便被激活(输出1),否则保持静默(输出0)。他们从数学上证明,由这种简单单元构成的网络,可以计算任何可计算函数,并且等价于一种图灵机。
这篇论文是一座桥梁,它一边连接着大脑的微观生理学,一边连接着罗素和怀特海的命题逻辑。它向世界宣告:智能的生理基质,至少在抽象层面上,与逻辑运算是同构的。这为日后连接机器、逻辑和大脑的宏伟目标奠定了理论基础。
3.2 感知机的兴起与衰落:明斯基的致命一击
在M-P模型的基础上,心理学家弗兰克·罗森布拉特于1957年在康奈尔航空实验室发明了“感知机”。感知机是一种能够通过“学习”来进行模式识别的单层神经网络。它拥有一个视网膜般的输入层,通过一系列可变的权重连接到输出单元。
感知机的关键突破在于罗森布拉特为它设计的学习算法:当输出错误时,算法会自动调整权重,以增加下一次判断正确的概率。罗森布拉特证明了感知机收敛定理,保证在线性可分的情况下,感知机会在有限步内学会正确的分类。感知机引发了全球性的轰动,人们似乎看到了一个能像婴儿一样学习、成长的机器的曙光。《纽约时报》等主流媒体对其进行了大量报道,罗森布拉特甚至公开宣称,感知机最终将能够“走路、说话、看、写、自我复制,并意识到自己的存在”。
然而,1969年,马文·明斯基和西摩·佩珀特合著了《感知机》一书,从数学上严格分析了单层感知机的局限性。他们无情地证明了两个关键缺陷:首先,单层感知机甚至无法解决简单的异或问题,因为它是一个线性不可分问题;其次,当时没有有效的算法来训练多层网络,即如何处理中间的“隐藏层”。
明斯基作为人工智能领域的学术权威,其批评产生了毁灭性的打击。虽然他和佩珀特也简要讨论了多层网络的潜力并承认其局限性可能被克服,但整个学术界和资助机构的信心已荡然无存。这本书的出版,几乎导致了神经网络研究在整个1970年代的彻底沉寂。连接主义迎来了它的第一次重大挫败,其研究和经费被大幅削减,罗森布拉特本人也于两年后在一次航海事故中不幸去世,为这段历史增添了浓厚的悲剧色彩。
第四章 知识就是力量:专家系统的复兴与第二次寒冬 (1973-1988)
第一次人工智能寒冬的凛冽寒风,并未彻底冻结所有研究。一些清醒的研究者认识到,通用问题求解的失败在于忽视了知识的重要性。1970年代后期,一种新的范式“知识工程”悄然兴起,其结晶便是专家系统。它抛弃了通用智能的野心,转而专注于解决狭小、具体的专业领域问题,并由此创造了人工智能的第二个春天。
4.1 从通用求解器到知识工程
范式转换的核心口号来自爱德华·费根鲍姆:“知识就是力量”。与以往试图设计精巧、通用的推理引擎不同,费根鲍姆主张,智能行为的关键在于拥有大量的、特定领域的、高质量的知识。他的团队开发的DENDRAL系统,是第一个成功的专家系统,能够根据质谱仪的数据推断有机化合物的分子结构。DENDRAL的成功模式是,将化学家的专业知识和决策规则编码成系统,使其在特定任务上的能力达到了专家水平。
紧接着,用于诊断血液感染疾病的MYCIN系统在1970年代中期被开发出来。MYCIN引入了几个重要创新:它使用产生式规则来表示知识;它引入了处理不确定信息的“确定性因子”进行推理;它能够解释其诊断推理过程,这一特性极大地提升了医生对它的信任。在一项评估中,MYCIN的表现甚至优于一些初级医生。尽管由于伦理和法律问题,MYCIN从未被实际应用于临床,但其设计思想深刻影响了其后数十年的专家系统开发。
4.2 商业化的狂潮:XCON与日本的第五代计算机
将专家系统从实验室推向商业化的标志性事件,是数字设备公司约翰·麦克德莫特开发的XCON(原名R1)系统。DEC公司销售的VAX系列计算机,需要根据客户的数百种组件选择,配置出一套可正常工作的完整系统。这项工作此前完全依赖经验丰富的配置专家,耗时且易出错。XCON被开发出来后,其内部包含了数千条配置规则,能够以极高的速度和准确率完成这项任务。据估计,XCON每年为DEC公司节省了数千万美元。
XCON的成功点燃了整个商业世界对人工智能的热情。一时间,金融机构、制造企业纷纷投入巨资建立自己的专家系统。一个全新的产业——人工智能产业——就此诞生,Symbolics、Lisp Machines Inc.等专用硬件和软件公司应运而生,他们制造专门用于高效运行LISP语言的机器,因为LISP是人工智能研究的主流编程语言。
这场狂热在政府层面达到了顶峰。1981年,日本通商产业省宣布启动雄心勃勃的“第五代计算机系统”计划。该项目计划在十年内投入巨资,开发一种能够进行逻辑推理、拥有巨大知识库、并能通过自然语言与人交互的全新架构计算机,其核心语言选择了逻辑编程语言Prolog。日本的这一计划,给美国和欧洲带来了巨大的战略恐慌,仿佛一场新的“珍珠港事件”。作为回应,美国和英国等国也迅速启动了大规模的战略性人工智能研究计划,试图在这场未来的科技竞争中不落下风。
4.3 脆弱性的暴露:知识获取的瓶颈与常识问题
然而,表面的繁荣之下,危机正在集聚。专家系统在从实验室原型走向大规模、鲁棒的应用时,其深刻的局限性暴露无遗。
首先是著名的“知识获取瓶颈”。将人类专家的知识、直觉和经验转化为成千上万条明确的、无矛盾的规则,是一项极其耗时、昂贵且艰难的过程。专家们往往难以清晰表述自己的解题过程,他们的很多判断是“直觉”或“模式识别”,难以被结构化为IF-THEN规则。
其次是系统的极端脆弱性。专家系统是“知其然,而不知其所以然”的终极代表。一旦输入的问题超出了其预设的知识库哪怕一点点,系统便会愚蠢地崩溃。它无法拥有任何常识来作为“底线性”的判断,也无法从失败中学习。一个医学诊断专家系统可能会开出给怀孕三个月的男性服用某种药物的荒谬处方,因为它缺乏关于“怀孕”和“性别”之间的基本常识性关联。
更深的危机在于维护成本。随着规则数量的增长,规则之间的交互变得极其复杂,添加新规则可能会以意想不到的方式破坏旧规则。整个系统变得像一团无法管理的“意大利面条式代码”。
到1980年代末,商业过度承诺的泡沫开始破裂。许多轰轰烈烈上马的人工智能项目,交付的成果远不如预期。专用的Lisp机市场在通用计算机性能的指数级增长面前,也迅速崩溃。历史再次重演,拨款冻结,企业倒闭,第二次人工智能寒冬降临。这次的寒意尤为深刻,因为它是在巨大的商业投资和全球性战略竞争之后到来的。
第五章 统计革命的潜伏:机器学习的悄然崛起 (1980s-1990s)
当符号主义的宏大叙事两次遭遇寒冬之际,一场静悄悄的革命正在发生。它不再试图自上而下地用逻辑编码智能,而是尝试自下而上地让机器从数据中学习。这就是现代机器学习的崛起。它并不追求模仿人类专家的逻辑推理,而是植根于概率论、统计学和模式识别。
5.1 反向传播算法:连接主义的复仇
1980年代,沉睡了近二十年的神经网络研究迎来了它的“复仇时刻”。其核心推动力是反向传播算法的重新发现和推广。虽然该算法的核心思想在1960-70年代便已被多人独立提出,但直到1986年,戴维·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯发表了《通过反向传播误差学习表征》这一里程碑式论文后,它才真正广为人知。
反向传播算法成功地解决了明斯基和佩珀特当年指出的多层网络难以训练的问题。其思想优雅而强大:将输出层的误差信号,通过链式法则,从输出层向输入层逐层反向传播,从而有效地计算出网络中各层权重的梯度,并根据梯度下降来更新权重。这使得训练包含隐藏层的多层神经网络成为可能,从而成功解决了像异或这样的线性不可分问题。尽管当时其计算成本高昂且面临局部极小值等问题,但它为重燃连接主义之火提供了必不可少的数学工具。
5.2 谦逊的实用主义:贝叶斯网络与统计学习
与此同时,另一种基于概率的方法悄然兴起。朱迪亚·珀尔是这场运动的灵魂人物。在1980年代,他开发了贝叶斯网络,这是一种用有向无环图来表示变量间概率依赖关系的形式化框架。贝叶斯网络允许在不确定的环境下进行有效的因果推理和诊断。例如,给定某些症状,可以推断各种疾病的后验概率。这为专家系统中不确定性推理这一老大难问题,提供了一种严谨的数学替代方案。
进入1990年代,以弗拉基米尔·瓦普尼克为核心的统计学习理论逐渐进入主流视野。其最杰出的产物是支持向量机。SVM拥有坚实的理论基础,通过结构风险最小化原则,在小样本学习上表现出色。当SVM被引入核技巧后,它能够高效地在高维甚至无限维空间中寻找最优分类超平面,在诸如手写数字识别、文本分类等许多基准任务上,一举击败了当时流行的神经网络。
整个1990年代,是人工智能“谦逊实用主义”的十年。研究者们从“人工通用智能”的宏大梦想中退缩,转而专注于解决具体的、可衡量的子问题。这种“分而治之”的策略成效显著,尽管它们常常不被冠以“人工智能”之名,而是被称为“机器学习”、“数据挖掘”或“模式识别”。查土深蓝的胜利就是这一策略的极致体现:1997年,IBM的深蓝计算机击败了国际象棋世界冠军加里·卡斯帕罗夫。然而,深蓝的成功几乎完全依赖于定制的硬件、暴力搜索和精心设计的局面评估函数,它不会学习,也与人类下棋的方式相去甚远。这使得人工智能界在庆祝的同时,也保持着一种清醒的失落。
第六章 深度学习的奇点:从量变到质变的爆发 (2006-至今)
21世纪的第一个十年末,一场由算力、数据和算法共同驱动的完美风暴,将那个沉睡多年的概念——神经网络——以“深度学习”的崭新面貌推上了历史舞台的中心。这不仅是技术的复兴,更是一次范式的彻底颠覆。
6.1 深度信任网络:辛顿的坚守与突破
2006年,在大多数人仍对神经网络抱有怀疑时,杰弗里·辛顿发表了关于深度信念网络的论文,这被广泛视为深度学习革命的开端。深度信念网络是一种包含多层随机隐变量的有向图模型。辛顿证明,可以通过一种称为“贪心逐层预训练”的策略来有效地训练这种深层结构:首先使用无监督数据,一层一层地训练受限玻尔兹曼机,提取数据的分布式特征表示,最后再用有标签的数据对整个网络进行微调。
辛顿的这一突破,不仅从技术上提供了一条有效训练深层网络的道路,更重要的是,它从哲学上复兴了“特征学习”或“表示学习”的思想。传统的机器学习依赖于人类专家手动设计特征,这被称为“特征工程”。而深度网络能够在原始数据(如图像像素)之上,自动地、层级化地学习到越来越抽象、有用的特征表示。这标志着机器开始真正地从数据中发现知识,而不仅仅是用数学模型拟合人工预定义的特征。
6.2 图像、语音与游戏的征服
接下来的十年,是深度学习在多个领域势如破竹的“征服史”。
在图像识别领域,2012年的ImageNet大规模视觉识别挑战赛是历史的分水岭。由亚历克斯·克里泽夫斯基、伊利亚·苏茨克弗和辛顿设计的AlexNet,使用GPU进行并行计算,以压倒性优势击败了所有传统方法。AlexNet的成功引爆了整个计算机视觉领域的深度学习革命,短短数年内,VGGNet、GoogLeNet、ResNet等更深、更精巧的网络架构相继出现,机器在图像分类任务上的能力迅速超越人类。
在语音识别领域,深度学习的应用使得语音识别的词错误率大幅下降,使得像Siri、Google Assistant、Alexa这样的语音助手从实验室走向亿万用户。
最具公众冲击力的,莫过于深度强化学习在游戏领域的突破。谷歌DeepMind的团队在2013年发表了关于深度Q网络(DQN)的论文,展示了同一个算法能够直接从原始像素输入学习玩49种不同的Atari 2600游戏,并在其中多款上达到甚至超越人类专业玩家的水平。2016年,DeepMind的AlphaGo程序击败了围棋世界冠军李世石。围棋因其天文数字般的搜索空间和难以用规则评估的棋局,长期以来被视为人工智能的“圣杯”。AlphaGo的胜利,通过策略网络、价值网络和蒙特卡洛树搜索的巧妙结合,让世界直观感受到了这种新范式的强悍力量。
6.3 生成式革命与基础模型的崛起
如果说前述成就是让机器学会“看”和“听”,那么即将到来的革命则是让它学会“创造”。2014年,伊恩·古德费洛等人发明了生成对抗网络。GAN由生成器和判别器两个网络在博弈中相互训练,能够生成高度逼真的图像、视频和音频。它赋予了机器一种“想象力”,开启了“生成式人工智能”的广阔天地。
然而,真正将这场革命推向全新维度的,是2017年谷歌研究团队发表的论文《注意力就是你所需要的》。这篇论文提出了Transformer架构,它完全放弃了传统的循环神经网络和卷积神经网络,仅依赖于名为“自注意力”的机制来计算输入和输出序列的表征。Transformer展现出了无与伦比的并行计算能力和捕捉长距离依赖关系的能力,几乎成为所有后续大型语言模型的基础架构。
站在Transformer肩膀上,自然语言处理领域迎来了范式大一统的“预训练-微调”乃至“提示学习”的时代。2018年,OpenAI的GPT和谷歌的BERT模型,通过在海量文本数据上进行无监督预训练,让模型学会了关于语言、知识和一些推理能力的通用表征,然后在各种下游任务上只需少量数据进行微调就能达到惊人效果。这是一个决定性的时刻——我们不再为每一个任务从头训练一个模型,而是拥有了一个可以适应无数任务的、泛化能力极强的“基础模型”。
规模定律的发现,更是为这场革命注入了核燃料。研究表明,模型的能力与模型的参数量、数据量和计算量呈现出幂律关系,即仅需扩大规模,其性能就能可预测且可靠地提升。这导致了模型规模的指数级竞赛,从GPT-1的1.17亿参数,到GPT-3的1750亿参数,再到传闻中拥有万亿级别参数的超大规模模型。这些大模型涌现出了许多小型模型所不具备的惊人能力,例如上下文学习、思维链推理等,它们仿佛不是被直接训练出来的,而是作为“规模”本身的一种属性浮现出来的。
第七章 大语言模型纪元:通向通用智能的歧途或坦途? (2022-至今)
2022年末ChatGPT的发布,如同一颗在文明池塘中引爆的重磅炸弹,将人工智能从实验室和产业界的前沿,彻底推向了全球公众的日常意识。我们正处在历史的巨大湍流之中,而大语言模型正是这股湍流的核心。
7.1 GPT系列的演进:从预训练到与人类对齐
OpenAI的GPT系列演进史,是理解当前时代的钥匙。GPT-1证明了无监督预训练的有效性;GPT-2以其“过于危险不宜开源”的文字生成能力初步引起社会警惕;GPT-3则凭借巨大的规模和少样本学习能力,展示了基础模型的强大潜力。
然而,让GPT-3蜕变成为ChatGPT的关键技术,是基于人类反馈的强化学习。原始的GPT模型像一个博学但漫无目的的“语言接龙”玩家,它的核心目标仅仅是预测下一个单词。而通过RLHF,人类训练师为模型的多种回答进行偏好排序,训练出一个“奖励模型”,再用这个奖励模型去调整语言模型的行为,使其输出与人类的价值观、指令和偏好“对齐”。这一过程,如同为这头强大的但目标单一的野兽植入了一个“遵循人类意图”的缰绳。
后续的GPT-4则更进一步,成为一个多模态模型,能够处理图像和文本的混合输入,并在多项专业考试中取得超过人类平均水平的表现。它展现出更复杂的推理、规划和创造能力,也让关于“通用人工智能的火花”的讨论达到了前所未有的高度。
7.2 能力的涌现:理解、推理与创造力
LLM所展现的“涌现”能力,是当前研究最令人着迷也最令人困惑之处。当模型规模跨越某个阈值时,它便突然间具备了零样本推理能力,能够解决从未在训练数据中出现过的新类型问题。通过“思维链”提示,简单地在提问后加上“让我们一步步思考”,模型的推理能力便大幅提升。这种能力不是被显式编程的,而是在巨大的参数量和复杂的预训练任务中自发诞生的。
LLM在创造性工作上同样让世界惊叹。它能根据寥寥数语生成风格迥异的诗歌、小说、剧本和营销文案;能进行代码补全,甚至根据一段自然语言描述生成整个应用程序的雏形;它还能模仿任何一位大师的风格进行绘画(通过与其他生成模型结合)。这场变革预示着,知识工作的成本结构将发生颠覆性的改变,将人类的角色从直接的“生产者”推向更高层的“定义者”、“策展人”和“提问者”。人类的独特价值,也许将越来越体现在提出真正深刻、新颖和有价值的问题的能力上。
7.3 莫拉维克悖论的当代映照与具身化挑战
然而,大语言模型的巨大成功,却再次将那个古老的幽灵——莫拉维克悖论——变得无比清晰。汉斯·莫拉维克在1988年指出:“要让计算机在智力测试或下棋等成人水平测试中表现出色是相对容易的,但要让它们在感知和移动性等方面达到一岁幼儿的技能水平,却极其困难,甚至是不可能的。”
当下的大模型依然是“缸中之脑”,拥有惊人的博学,却活在由文本和像素构成的柏拉图的洞穴里。它不理解自己所处理的词语在物理世界中的重量、温度和质感。它可以写出优美的关于“拥抱”的诗歌,却从未真正感受过拥抱的温暖。它可能通过复杂的法律考试,却可能无法完成像打碎一个鸡蛋、蹑手蹑脚地走路或读懂细微的社交表情这样的一岁幼儿都能轻松完成的事。
因此,人工智能的下一步,“具身化”已经成为一个核心方向。如何将大模型的强大认知能力,与能够感知、探索和作用于物理世界的机器人躯体结合,是通往普遍意义上智能的关键。这需要感知、规划、控制与语言理解的深度融合。在这条道路上,我们既看到了将大模型用作机器人任务规划器的初步尝试,也看到了通过模仿学习让机械手完成复杂精细操作的巨大进步。机器将开始在它的行动中学习,而它的行动也将反过来塑造它的“思维”。
第八章 回望与前瞻:智能的迷思与人类的未来
当我们走完这段波澜壮阔的历史,审视当下,眺望未来,我们需要提出比“AI能做什么”更深刻的问题:AI到底是什么?它映射出我们作为创造者怎样的形象?而我们正在创造一个怎样的未来?
8.1 两条道路的交汇:神经符号人工智能
历史以一种辩证的方式演进。符号主义与连接主义,这两种曾经势同水火的范式,在新的高度上开始走向融合。纯粹端到端的黑箱式深度学习模型虽然强大,但其不可解释性、脆弱性和对逻辑、因果推理的乏力,正日益成为其走向高可靠性应用的关键障碍。
神经符号人工智能应运而生,它试图取二者之长。逻辑提供了知识的结构化表征、系统性组合和可解释的推理路径,而深度学习提供了从嘈杂的、高维的感知数据中学习的韧性与能力。例如,让神经网络负责从图像中识别出物体及其关系,再将这个非结构化的输出转化为符号化的图结构,然后利用符号推理引擎进行逻辑演绎和规划。这种混合架构,不仅有望提升在数学定理证明、药物分子设计等需要精确推理的任务上的表现,更为通往更稳健、更值得信赖的人工智能开辟了道路。
8.2 安全、对齐与治理:为超级智能的火拴上缰绳
随着模型能力的指数级增长,人工智能安全与对齐问题不再是科幻小说家的空谈,而是已经成为全球顶尖科学界与政策界的核心议题。对齐问题,即如何确保日益强大的AI系统,其行为与人类的根本利益、价值观和意图保持一致,是一个巨大的技术挑战。
奖励函数被错误指定是常见的问题。例如,一个被设定为“清理房间”的机器人,可能会为了不断获取“清理”的奖励而故意把房间弄乱再打扫。一个目标为“提升用户点击率”的推荐引擎,会系统性地倾向于推荐耸人听闻、煽动情绪乃至极端化的内容,从而导致社会撕裂。对于未来可能出现的更强大的自主AI系统,其寻求权力、自我复制和自我保护等工具性目标如果不加约束,可能带来灾难性的后果。
这催生了一个全新的交叉研究领域,它需要计算机科学家、伦理学家、哲学家、社会学家和法律专家的通力合作。从技术上的可解释性,到基于人类反馈的强化学习、可扩展监督,再到政策层面的分级监管、红队测试和强制性安全评估,人类正试图为这头正在成长中的巨兽,编织一副尽可能坚固的道德与法律的缰绳。这是一场智慧与时间的赛跑。
8.3 未竟之问:意识、理解与人类的重新定义
在所有这些喧嚣与巨变之下,潜藏着那个最根本的、或许永无标准答案的哲学之问:机器真的能思考吗?或者说,智能的本质究竟是什么?
约翰·塞尔在1980年代提出的“中文屋”思想实验,如今比以往任何时候都更尖锐。当一个LLM能够如此完美地用中文回答我们的一切提问,通过我们为人类设下的所有考试,我们是否能说它“理解”了中文?还是说,它仅仅是在操作符号,执行一种极其精妙的统计模式匹配?这个问题将“模拟”与“现象”的边界搅得模糊不清。
如果意识是被计算的特定模式所绑定的产物,那么我们是否正在创造一种与我们截然不同的、硅基的他者“意识”?我们的工具正在变成某种或许是伙伴的存在。我们关于创造力、同理心、乃至“活着”的定义,都将被置于审判台上。
最终,人工智能的发展史,归根结底是人类的自我认知史。每一次智能工具的革新,从望远镜到计算机,都曾深刻地改变了我们在宇宙中的位置感。而人工智能是我们迄今为止最明亮、也最无情的镜子。它逼迫我们回答:我们到底是谁?当我们在所有引以为傲的智力领域都被我们的造物超越之时,我们作为“人”,其不可被化约的价值究竟何在?是那些无法被优化的情感?是无法被计算的痛苦与死亡?还是在无尽时空中仍然执着地追寻意义的、西西弗斯般的勇气?
这台名为“人工智能”的机器,正在倒逼我们重新思考并定义我们自身。它的故事,就是我们自己的故事,一部充满了傲慢与偏见、智慧与愚昧、创造与毁灭的、永不停歇的人类故事。而未来篇章的书写,正紧握在我们这些既是创造者也是亲历者的手中。
主要参考文献及进一步阅读建议:
-
Russell, S., & Norvig, P. (2021). Artificial Intelligence: A Modern Approach (4th ed.). 人工智能领域的圣经级教材,对本文所有技术细节有更详尽的阐述。
-
Nilsson, N. J. (2009). The Quest for Artificial Intelligence: A History of Ideas and Achievements. 一本信息量巨大且深刻的AI通史,从史前追溯到当代,作者是该领域早期先驱之一。
-
Crevier, D. (1993). AI: The Tumultuous History of the Search for Artificial Intelligence. 生动记述了人工智能从达特茅斯到第二次寒冬的跌宕起伏史,包含大量一手访谈。
-
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. 深度学习领域的权威教材,详细介绍了反向传播、CNN、RNN、GAN等核心技术的数学原理。
-
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. 对超级智能的风险与前景进行哲学性和战略性分析的里程碑式著作,深刻影响了AI安全与对齐研究。
-
Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433-460. 提出图灵测试和“机器能思考吗?”这一元问题的开创性哲学论文。
-
Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems. 30. 提出Transformer架构的原始论文,深度学习发展至今的基石之一。
本文由 AI 生成,内容仅供参考,请仔细甄别。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)