从基础模型到系统化智能：当代人工智能发展的理论主线、方法论转向与核心争议

golduty2

469人浏览 · 2026-03-22 00:09:43

golduty2 · 2026-03-22 00:09:43 发布

摘要

过去十余年，人工智能的发展已由以任务为中心的模型设计，转向以大规模预训练为中心的基础模型范式；而在近两年，这一范式又进一步外扩为多模态、推理增强、工具使用、智能体系统与具身智能等相互耦合的研究格局。本文主要聚焦2020年以来、尤其是2024—2025年的公开研究，在保留必要历史背景的前提下，系统梳理人工智能发展的主要理论脉络，重点分析符号主义、概率主义、连接主义与强化学习传统如何在当代基础模型体系中重新分工；讨论预训练、自监督学习、Transformer、尺度定律、后训练、偏好学习、检索增强与测试时计算在当前一轮突破中的关键作用；并进一步考察多模态统一表征、世界模型、长期记忆、持续学习、agent架构与机器人融合所揭示的方法论变化。本文认为，当前AI的进展并不能被简单概括为“大模型规模扩张”的单线叙事，而更应理解为“可扩展预测学习”与“系统级能力组织”共同推进的结果。与此同时，关于“理解”与“拟合”的边界、涌现能力是否真实存在、推理链的真实性、对齐与真实性的根源、评测体系的构造效度以及持续学习的可行性等问题，研究界仍无稳定共识。基于现有证据，本文提出一项综合判断：未来3—5年，AI发展的重心更可能由单一模型能力竞争转向“模型—工具—记忆—环境—验证”耦合形成的系统化智能架构竞争。

关键词

人工智能综述；基础模型；大语言模型；多模态学习；推理与测试时计算；智能体系统；具身智能；评测与对齐

一、引言

近年人工智能研究之所以需要重新综述，并不只是因为模型参数规模继续增长，更在于研究对象本身已经发生变化。以BERT、GPT-3、CLIP为代表的大规模预训练模型，推动了“先在广泛数据上学习可迁移先验、再面向多任务适配”的基础模型思路；与之相伴的，则是从单任务优化向跨任务迁移、从感知任务向生成任务、再从生成任务向推理、工具调用与交互式系统扩展的整体转向。换言之，AI研究的主线，正在从“如何为某一问题建模”转向“如何形成可复用、可扩展、可再组织的智能基础设施”。

与此同时，最新进展也使传统综述框架出现失效。一方面，多模态模型、推理增强模型、检索增强系统、GUI与网页智能体、视觉—语言—动作模型等路线并行发展，意味着单纯围绕“大语言模型”叙述，已经不足以刻画AI前沿的真实结构；另一方面，基准污染、开放式评测偏差、构造效度不足与复现难题，使“榜单式比较”越来越难以承担理论判断的功能。因此，重新综述AI发展，不应停留于技术盘点，而应回到一个更根本的问题：当前这一轮进展究竟改变了什么样的“智能观”，它的理论收益和方法论代价分别是什么。

基于此，本文以2020年以来特别是2024—2025年的高质量公开研究为重点，同时保留必要的历史脉络。本文试图回答四个相互关联的问题：第一，人工智能发展的理论主线究竟如何从符号主义、统计学习与强化学习演化到基础模型与系统化智能；第二，当前突破背后的关键机制是否可以被归结为单一的“规模效应”；第三，近两年的前沿研究在方法论上发生了哪些实质性变化；第四，面对“理解”“推理”“对齐”“AGI”等高度泛化的概念，学界已经形成了哪些共识，又在哪些方面仍处于争论之中。

二、历史范式演进与当代转折

（一）从符号操作到统计表征：AI的长期竞争结构

如果将AI的发展压缩为一条从“旧AI失败”到“深度学习胜利”的线性历史，往往会遮蔽这一领域更深层的竞争结构。更准确的说法是：人工智能始终围绕若干根本问题展开争论，即知识应当以显式符号结构表示，还是应当从数据中隐式学习；不确定性应如何进入智能系统；智能是否必须通过与环境交互而形成；以及模型内部结构与外部搜索之间应如何分工。Turing在1950年以“模仿游戏”的方式重新界定了机器智能问题，而Newell与Simon所提出的物理符号系统假说，则将智能理解为对符号结构的生成、存储与操纵。由此，经典AI在很长时间里把“推理”视为显式表示与规则搜索的结果。

20世纪后半叶至21世纪初，概率建模和统计学习为AI引入了另一套语言。Ghahramani将概率机器学习概括为面向不确定性的统一框架，深度学习则把表征学习推到中心位置，强调通过多层抽象从原始数据中学习特征，而不是依赖人工设计。与此同时，强化学习继承了行为主义取向在机器学习中的技术表达，将智能理解为在环境中通过奖励信号不断修正策略；DQN、AlphaGo与AlphaGo Zero之所以重要，不仅因为性能突破，更因为它们显示出表征学习、值函数逼近、搜索与自博弈可以构成一种新的复合范式。

从方法论上看，Sutton在《苦涩的教训》中提出的判断具有标志性意义：长期来看，依赖通用搜索与学习并不断利用计算资源的路线，往往优于注入大量人工先验知识的路线。这一观点不是严格意义上的理论定理，但它深刻影响了近年AI研究的工程哲学：与其为每一类能力设计特定知识结构，不如构造能够随数据与算力持续扩展的通用学习机制。值得注意的是，当代AI并非彻底抛弃结构，而是把结构从模型内部的手工规则，转化为系统外部可调用的搜索、检索、工具和环境反馈。

（二）从任务专用智能到基础模型

当代AI真正的转折点，不仅是某一模型的性能提升，而是“任务专用系统”向“基础模型”的范式变化。BERT说明了无监督文本预训练可以形成强可迁移的语言表征，GPT-3则展示了当模型规模与数据规模足够大时，少样本提示本身可以成为任务适配接口；CLIP进一步在图像—文本之间建立了可迁移的跨模态语义对齐。Bommasani等人把这一类模型概括为“基础模型”：在大规模广泛数据上通过自监督训练获得，再被适配到多种下游任务。这一定义的关键不在于“模型大”，而在于“上游基础性”与“下游可再适配性”。

更进一步，基础模型逻辑正在扩散到语言之外的科学领域。2025年的材料发现基础模型综述与单细胞基础模型综述都强调，所谓基础模型并不限于自然语言，而是一种更一般的表示学习制度：先在大规模、多源、弱标注或自监督数据上学习共享潜空间，再面向具体科学任务进行适配。这说明，基础模型并不是语言模型的偶然成功，而是在多个领域重构“表征—任务”关系的一种通用方案。

由此，当代AI可以被理解为一个四阶段外扩过程：先是感知智能，即在视觉、语音等领域形成高性能表征；继而是生成智能，即模型能够产出文本、图像与代码；再进一步是推理智能，即模型在测试阶段被要求进行更长程的中间计算与验证；最后是代理智能，即模型不再只是输出内容，而是通过工具、环境和记忆形成任务闭环。这四者不是截然分离的类别，而是同一基础模型体系不断外化能力边界的过程。

表1 主要AI范式的理论比较

范式	对智能的基本理解	代表机制	主要优势	主要局限	对当代AI的遗产
符号主义	智能是显式表示与规则操纵	逻辑、规划、搜索、专家系统	可解释、适合组合式结构	脆弱、难以处理噪声与感知输入	搜索、规划、形式验证、程序化推理
概率/统计学习	智能是从数据中推断规律并处理不确定性	贝叶斯模型、图模型、统计学习	不确定性处理较强	对高维复杂表征能力有限	风险最小化、生成建模、校准思想
连接主义/深度学习	智能是多层表示的学习	神经网络、表征学习、自监督	感知与生成性能强、可端到端训练	解释性弱、持续学习和精确推理不足	基础模型、自监督、统一表征
强化学习/行为主义取向	智能是与环境交互中形成的策略优化	值函数、策略梯度、自博弈、世界模型	适合控制、规划与行动闭环	样本效率和泛化困难	搜索结合学习、测试时规划、具身智能
基础模型/系统化智能	智能是可扩展先验与系统级组织的结合	预训练、后训练、检索、工具、记忆、验证	跨任务迁移强、接口统一	真值性、长期记忆、可靠评估仍不足	当前主流研究框架

资料来源：根据Turing、物理符号系统假说、概率机器学习、深度学习、强化学习与基础模型文献综合整理。

三、当前一轮AI突破的关键理论机制

（一）自监督学习、表征学习与生成建模的上游化

当前基础模型的关键，并不只是“规模更大”，而是监督信号的重新配置。BERT通过掩码语言建模从海量未标注文本中学习双向表征，GPT-3则将自回归预测推进为通用任务接口；在视觉领域，CLIP利用自然语言监督实现跨模态对齐，MAE通过掩码重建学习可迁移视觉表征。这些工作共同表明，表征学习不再是某一具体任务的前处理步骤，而是AI系统的上游基础设施。任务本身越来越像是在调用、改写或约束一个已经形成的共享先验。

这一变化的理论意义在于，AI从“给定标签、学习映射”的传统监督学习逻辑，转向“从分布中学习可复用结构”的预测学习逻辑。也正因如此，基础模型能够跨越原先清晰分隔的任务边界。然而，这种分布式学习同样继承了训练语料中的错讹、偏见与虚假共识。TruthfulQA所揭示的现象值得重视：更大模型在某些真实性测试中并不会自然变得更可信，反而可能更熟练地复现训练分布中的常见误解。由此可见，预测式表征学习虽然极大拓宽了能力边界，却并不自动解决真值性问题。

（二）Transformer：统一接口、上下文学习与结构极限

Transformer之所以成为当前AI的中心架构，不仅因为它性能强，而且因为它提供了一个高度统一的序列接口。Vaswani等人提出的“仅依赖注意力机制”的架构摆脱了递归与卷积，使训练并行化成为可能，也为文本、图像、代码乃至多模态token的统一处理提供了技术条件。可以说，没有Transformer，就没有当前意义上的基础模型。

进一步说，Transformer改变的还不只是训练方式，而是“学习发生在何处”的理解。关于上下文学习的理论研究表明，标准Transformer可以在上下文中学习某些函数类，并在一定条件下在“参数内学习”与“上下文内学习”之间进行分工。这意味着，模型并不只是在训练阶段固化知识，也可以在推理阶段从给定示例中即时形成局部算法。就此而言，提示学习并非纯粹经验技巧，而是触及了基础模型的一种新型适应机制。

但Transformer的理论地位需要双重理解。一方面，在特定形式化条件下，注意力模型具有极强表达能力，甚至被证明具有某种意义上的图灵完备性；另一方面，这并不意味着现实中的有限精度、有限深度模型已经具备稳定、精确的离散推理能力。关于信息过度压缩与表征塌缩的研究指出，decoder-only Transformer在计数、复制等任务上可能出现结构性失真。换言之，“可表达”与“可有效学习并稳健实现”之间并不等价。这也解释了为什么当前AI越来越依赖搜索、工具与外部验证，而不是单纯期待模型内部自然涌现出可靠的形式推理。

（三）尺度定律、计算最优训练与数据—模型—算力三元关系

Kaplan等人的尺度定律为大模型研究提供了一种近似工程科学式的信心：随着模型参数、数据与计算资源扩展，损失与若干能力指标呈可预测的幂律改善。Hoffmann等人随后以Chinchilla结果修正了“参数越大越好”的朴素理解，指出在给定计算预算下，模型规模与训练token数需要更均衡地共同扩展，许多模型事实上处于“参数过大、数据不足”的状态。由此，当前AI最重要的资源关系不再是简单的“更多参数”，而是数据、模型与算力的协同配置。

然而，尺度定律并未终结理论争论。所谓“能力涌现”是否真实存在，近年来已成为争议焦点。Schaeffer等人的研究指出，某些看似突然跃迁的能力可能只是由离散评测指标与阈值统计造成的“海市蜃楼”；同时，关于神经尺度规律的理论工作也提示，能力随规模变化可能处于多个不同区间，而非单一平滑规律。更现实的挑战在于数据供给：JMLR 2025关于数据受限语言模型的研究认为，互联网高质量文本可能成为瓶颈；关于合成数据的最新研究则显示，合成语料确有潜力延缓数据枯竭，但增益并非无限，且会出现收益平台期。因此，较有共识的是“规模仍然重要”，而非“规模自动带来普遍、持续且无争议的涌现”。

（四）后训练、偏好学习与能力外化

如果说预训练决定了模型“知道什么样的分布”，那么后训练则 increasingly 决定模型“以何种方式表现这些能力”。InstructGPT的结果具有方法论上的代表性：经过人类偏好对齐的1.3B模型在人工偏好评估中可优于未经对齐的175B GPT-3，这意味着“有用性”并不是预训练规模的简单函数。随后，DPO以更直接的方式将偏好学习表述为一个分类优化问题，而Constitutional AI则尝试在较少人类标注的情况下，以原则集和AI反馈来塑造模型行为。由此，对齐不再只是安全议题，也成为模型功能化的核心组成部分。

与后训练同时发生的，是能力的外化。RAG把知识从参数内记忆部分转移到可更新的外部文档库；ReAct通过“思考—行动”交替，让模型把推理与外部信息获取耦合起来；Toolformer则进一步表明，模型可以在训练中学习何时调用计算器、检索器或翻译器。理论上看，这意味着“智能”不应再仅定义为单个参数化函数的输出，而应理解为参数记忆、非参数记忆、外部工具与环境交互共同构成的混合系统。

四、近两年AI前沿研究的方法论变化

（一）从训练时扩展到测试时扩展

近两年最重要的方法论变化之一，是研究重心从“训练时扩展”转向“测试时扩展”。链式思维提示、零样本链式思维、自一致性和Tree of Thoughts的共同逻辑，并非单纯追求更长输出，而是把额外计算预算分配给中间推理路径的生成、比较与搜索。到2025年前后，s1与DeepSeek-R1又把这一趋势进一步推进：前者以预算控制方式迫使模型在测试时延长思考，后者则在可验证任务上用强化学习塑造更长程、更具自检倾向的推理轨迹。由此，“推理能力”开始被理解为可在推理阶段单独调度和塑形的资源，而不只是预训练之后自然附带的副产物。

但这并不意味着推理问题已经解决。关于链式思维真实性的研究指出，提高答案正确率并不自动意味着中间推理链就是模型实际依赖的因果过程；不少“解释性链条”更像是有用的外显脚手架，而非忠实揭示内部机制。因此，当前讨论“推理能力”时，至少应区分三层含义：其一是结果层面的正确性，其二是过程层面的搜索与规划能力，其三是解释层面的可验证性。三者既有关联，又不能互相替代。

值得注意的是，近年的若干突破往往并非纯粹“端到端大模型”的胜利，而是在神经模型之外重新引入了搜索、形式系统与验证器。AlphaGo将神经网络与蒙特卡罗树搜索结合，AlphaGeometry把语言模型与符号几何引擎结合，AlphaProof则在形式证明环境中利用强化学习寻找可验证证明。由此可见，符号结构并没有消失，而是从经典AI内部的手工规则体系，转化为现代系统外部可调用、可验证的结构资源。

（二）从单体模型到系统化智能架构

当模型开始频繁调用工具、维护状态、执行网页或操作系统任务时，AI研究的最小分析单元也发生了变化。WebArena与VisualWebArena显示，在真实网页环境下完成多步任务远比语言基准测试困难，最佳系统与人类表现仍有显著差距；Agent S则针对GUI环境提出更明确的知识获取、长程规划和动态界面适应机制。这里真正被评估的，已经不是“一个模型答题多好”，而是“一个系统能否在外部世界中持续感知、分解任务、调用资源并纠错”。

这一点也意味着，AI发展正在从“单模型能力竞争”转向“系统架构竞争”。RAG、工具调用、工作流编排、自动评估器、记忆模块、验证器与环境接口不再只是附属组件，而是在很多场景中决定系统上限的关键部分。因此，基础模型之后的核心问题不是“是否再训练一个更大的统一模型”而已，而是如何把模型置于一个可检索、可验证、可行动、可恢复的闭环结构中。

表2 当前主流技术路线的比较

技术路线	核心机制	主要优势	关键局限	理论含义
稠密基础模型	大规模预训练、统一参数化先验	迁移广、接口统一、生成能力强	真值性、长期记忆、成本高	提供通用先验底座
推理增强模型	CoT、搜索、测试时计算、RL后训练	可验证任务上显著提升	成本上升，过程未必真实	将推理视为可调度计算资源
RAG与工具系统	外部知识库、API、可执行工具	知识更新快、可验证性更高	编排复杂、错误链传播	智能由参数内外共同构成
多模态统一模型	共享token空间、早融合或统一生成	统一感知与生成	抽象视觉推理仍脆弱	迈向统一表征，但未完成统一认知
具身/VLA模型	语言、视觉与动作联合建模	提升语义落地与任务执行	机器人数据昂贵，泛化有限	从文本内智能转向环境耦合智能
世界模型/RL路线	预测环境动态、想象规划	适合长时程控制与决策	通用性和语言整合仍待加强	提供非文本中心的智能路径
小模型/MoE/开放权重	蒸馏、稀疏计算、条件路由	降成本、促扩散、利复现	能力碎片化、治理张力	说明能力并非仅由稠密规模决定

资料来源：根据推理增强、RAG、agent、多模态、VLA、世界模型与效率化研究综合整理。

（三）多模态模型与统一表征的扩展

多模态模型的发展，意味着基础模型不再满足于处理语言符号，而是试图在更广阔的感知空间中形成统一表示。Flamingo以少样本方式把视觉输入纳入语言模型框架；Chameleon采用早融合路线，在同一模型中处理任意序列的图像与文本；Show-o则进一步试图统一多模态理解与生成。这些路线的共同目标，是把“看”“说”“生成”重新纳入同一序列建模框架。

然而，多模态并不等于真正统一的认知能力。NeurIPS 2024的MLLM-CompBench表明，多模态大模型在比较性视觉推理上仍存在显著短板；针对Bongard问题的研究则显示，即便在视觉上并不复杂的抽象模式任务中，现有模型仍经常失效。这意味着，多模态模型目前更像是扩展了输入输出通道，而不是已经解决了抽象视觉概念形成与稳健跨模态推理问题。

（四）世界模型、具身智能与语言模型的耦合

如果说多模态旨在打破语言与感知之间的壁垒，那么具身智能则更进一步要求AI把语言、感知与动作连接为一个闭环。PaLM-E把传感器输入纳入语言模型，强调语言与感知的正迁移；RT-2把机器人动作离散化为token，显示互联网级视觉—语言知识可以迁移到机器人操作；OpenVLA则把这一思路向开放研究生态推进，证明较小但开放的VLA模型也能在通用操作任务上取得强表现。具身路线的理论意义在于，它将“语义是否真正落地”这一长期争议，转化为可在物理任务中被检验的问题。

与之并行的，是世界模型路线的重新升温。LeCun关于自主机器智能的立场文献把可预测世界模型、层级表征与内在动机置于未来AI的中心；DreamerV3则展示出一种不同于大语言模型的通用性路径：通过学习环境动态并在“想象”中规划行为，以单一配置跨越150余项任务。这条路线提醒我们，通用智能并不必然等同于文本建模能力的无限扩张，环境动力学建模与长期规划本身也是独立而重要的智能维度。

但从长期看，具身与世界模型路线同样暴露出持续学习问题。2024年关于深度持续学习中“可塑性丧失”的Nature论文表明，标准深度学习方法在持续任务序列中会逐渐失去适应新任务的能力。这意味着，当前流行的“先训练、后部署”范式并不足以支撑真正意义上的长期自主体；长上下文也不等于长期记忆，外部检索也不等于在线更新。未来AI若要进入更开放的环境，持续学习与可塑性恢复将是绕不开的问题。

（五）高效化、小模型、稀疏化与开放生态

近年来另一条值得注意的前沿，是对“能力—成本”关系的重新估计。知识蒸馏早已表明，大模型学到的行为可以在一定程度上压缩到小模型中；稀疏MoE与Switch Transformer进一步说明，模型容量可以通过条件路由扩展，而不必按稠密方式支付全部推理成本；TinyStories等工作则提示，在受限但结构清晰的分布上，小模型也能学到看似“超出其规模”的连贯能力。这些研究共同削弱了“能力只能来自更大稠密模型”的单一想象。

研究生态的变化同样重要。斯坦福AI Index 2025显示，GPT-3.5级别推理成本在2022年末到2024年10月间下降超过280倍，开放权重模型与闭源模型在若干基准上的差距也迅速缩小。与此同时，开放模型被认为有助于创新扩散、可审计性与适配性，但并非自动带来充分透明；相关研究同时指出，开放权重也可能形成算法同质化与新的安全治理压力。由此可见，开放与闭源并非简单的价值对立，而是科学复现、产业扩散与风险控制之间的结构性张力。

五、当前AI面临的核心理论难题

（一）“理解”与“拟合”的边界问题

围绕大模型是否“理解”的争论，实质上是对统计泛化、语义指称与世界耦合三者关系的争论。较有共识的是，当前模型已经具备极强的分布压缩与跨任务迁移能力；存在争议的是，这种能力是否足以构成具有稳定语义约束的“理解”。一些研究在特定文本理解基准与抽象视觉推理任务上观察到模型表现接近随机或高度不稳定，这提示我们不能把表面流利与深层理解等同起来。本文的判断是，“理解”不宜作为单一总括性概念，而应拆分为语义对齐、反事实稳定性、环境落地性与可迁移抽象四个层面；当前模型在前两者上已有局部进展，在后两者上则仍明显不足。

（二）涌现、推理与规划：突破是否具有实质性

关于“涌现”的争论表明，AI能力提升并不容易被一个统一标签概括。较有共识的是，链式思维、测试时计算、搜索与强化学习后训练，确实能在数学、代码、形式证明等可验证任务上提高表现；存在争议的是，这是否意味着模型已经掌握了稳定的、可迁移的内部推理机制。本文倾向于认为，当前的进展是真实的，但它更接近“系统化推理能力”的增长，而不是“纯内生、纯语言式抽象推理”问题的终结。尤其在形式数学与几何这样的强验证环境中，进展最为显著，这恰恰说明反馈结构与验证器在能力形成中具有关键作用。

（三）幻觉、真实性、安全性与对齐的根源

幻觉与真实性问题并非表层“说错话”的现象，而是训练目标、数据分布、奖励设计与世界接触方式共同造成的结果。TruthfulQA表明，规模扩展本身并不自动带来真实性；InstructGPT、DPO与Constitutional AI说明，后训练可以显著改善有用性与可控性，但这与“强对齐”仍有距离。关于强对齐与弱对齐的研究进一步指出，当前模型多能实现训练分布内的行为塑形，却未必具备对隐含人类价值、复杂意图和真实世界因果后果的稳健把握。本文据此认为，对齐问题不能被压缩为礼貌、无害或表面服从；它要求更强的世界建模、价值建模与外部验证机制。

（四）长期记忆、持续学习与可塑性

当前很多系统把“更长上下文窗口”视为解决记忆问题的路径，但长期记忆并不等于把更多token塞入上下文。RAG解决的是知识更新与文档访问问题，而不是参数层面的持续适应；可塑性丧失研究则提示，标准深度学习在长期连续任务中会出现适应能力衰减。换言之，今天的大模型在“读取过去信息”上比过去强得多，但在“经历新环境后不破坏旧能力地继续成长”方面，仍远未达到自然智能的水平。

（五）评测危机：污染、构造效度与开放式输出

随着模型逐渐逼近乃至饱和传统基准，能力评估本身正在成为理论难题。HELM通过多场景、多指标标准化评测回应了“单基准、单指标”的局限；污染研究和动态评测研究则揭示，静态基准在大规模预训练时代极易被间接记忆，从而失去诊断力；关于构造效度的讨论进一步指出，很多所谓“推理”“理解”基准，其实混合了记忆、格式跟随、工具可用性与评分器偏好等多个因素；开放式评测的近期研究还显示，Elo式比较容易受到冗余与偏差影响。因此，评测之难并不只是“题做完了”，而是我们越来越难以确定自己究竟在测量什么。

六、讨论：概念混乱、方法论误区与研究边界

（一）较有共识的部分

综合现有研究，可以说较有共识的判断至少有三点。第一，当前AI进展的核心驱动力确实来自大规模自监督预训练、Transformer架构、数据—模型—算力协同扩展，以及后训练对行为的重塑。第二，基础模型并未终结其他传统，而是重新吸收并重组了搜索、规划、强化学习和外部工具。第三，多模态、agent与具身智能并不是脱离基础模型的全新革命，而是基础模型向感知、行动与环境闭环外扩的结果。

（二）仍存在重大争议的部分

真正有争议的，不是“AI是否进步”，而是“这些进步在理论上意味着什么”。“涌现”究竟是能力质变还是评测阈值效应，“推理链”究竟是因果过程还是可用脚手架，“多模态”究竟是输入扩容还是统一认知的开始，“agent”究竟描述模型本体还是系统编排，“AGI”究竟指任务广度、经济替代性、自治性还是人类式理解，这些关键概念在研究与公共讨论中经常被混用。若不澄清概念，许多争论事实上只是不同层级问题的交叉投影。

（三）本文的综合判断

本文的综合判断是：AI正在从“表示学习主导的范式竞争”转向“系统化智能架构的竞争”。前一阶段的核心问题是，如何训练一个具有足够广泛迁移性的上游模型；后一阶段的核心问题则是，如何把该模型与检索、工具、验证器、记忆、规划器和环境反馈组织成稳定闭环。由此看，基础模型之后的下一阶段不太可能是一个单一终局模型，而更可能是分层系统：基础模型提供广义先验，测试时计算与搜索提供难题求解能力，外部工具与知识库提供更新性和可验证性，世界模型与具身交互提供落地性，持续学习机制则提供长期适应能力。哪一条路线能够首先把这几个层面连成稳定结构，哪一条路线就更可能主导下一轮AI发展。

七、结论

本文从历史范式演进、关键机制、近两年方法论转向、核心理论难题与争议问题五个层面，对当代AI发展进行了综述。总体而言，当前AI并不是在获得一套已经完备的“智能理论”，而是在形成一个越来越稳定的工程—理论复合结构：以自监督预训练建立广义先验，以后训练和偏好学习塑造行为，以测试时计算与搜索增强求解，以检索、工具和环境接口外化能力，以多模态与具身路线修补纯文本智能的边界。

因此，对未来AI的判断不宜停留在“模型是否会更大”这一单轴问题上。更值得关注的是：模型如何与工具、记忆、验证器和环境构成闭环；可验证反馈能否像互联网文本之于预训练那样，成为下一阶段能力增长的关键资源；持续学习、世界模型和具身交互能否把统计智能推进为更稳健的长期智能。就此而言，未来3—5年的研究重点，很可能不是单体模型的再度神化，而是系统化智能架构的成熟。

附：当前AI研究的5个核心争议

规模扩展是否仍会持续带来稳定能力增长，还是已经接近高质量数据瓶颈与收益递减区间。现有研究对这一问题没有统一答案，尤其在数据受限与合成数据条件下仍存在显著分歧。
链式思维与推理增强模型究竟是在揭示真实推理，还是主要提供一种更有效的搜索与输出脚手架。性能提升已被广泛观察到，但过程真实性仍未解决。
语言模型是否已经具备可称为“理解”的语义与世界模型，还是仍主要停留在高维统计拟合层面。学界尚无共识，且不同任务对“理解”的要求并不相同。
对齐能否主要通过偏好学习、AI反馈和行为约束完成，还是必须引入更强的价值建模、因果推断与外部验证。当前结果支持前者可改进行为，但不足以保证强对齐。
开放权重与闭源路线在创新、透明、安全和治理之间何种组合最优。开放生态促进扩散与研究复现，但并不自动带来充分透明，也会带来新的风险集中。

附：未来AI发展的5个最值得关注方向

可验证推理与形式化环境中的强化学习。数学、代码、定理证明等领域正在显示出最清晰的能力增长轨迹。
模型—工具—记忆—验证一体化的agent系统。未来AI的上限越来越可能由系统组织方式而非单个模型决定。
多模态世界模型与具身智能。语言、感知与动作的统一将决定AI能否真正跨出文本分布。
持续学习、长期记忆与可塑性恢复。没有这一突破，长期自主体与开放环境适应都将受到根本限制。
动态评测、机制解释与透明治理。随着静态基准失效，未来研究需要更强的评测基础设施与更可检验的解释框架。

参考文献

[1] Turing, A. M. 1950. Computing Machinery and Intelligence. Mind, 59(236), 433–460.

[2] Newell, A., & Simon, H. A. 1976. Computer Science as Empirical Inquiry: Symbols and Search. Communications of the ACM, 19(3), 113–126.

[3] Ghahramani, Z. 2015. Probabilistic Machine Learning and Artificial Intelligence. Nature, 521, 452–459.

[4] LeCun, Y., Bengio, Y., & Hinton, G. 2015. Deep Learning. Nature, 521, 436–444.

[5] Mnih, V., Kavukcuoglu, K., Silver, D., et al. 2015. Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533.

[6] Silver, D., Huang, A., Maddison, C. J., et al. 2016. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 529, 484–489.

[7] Silver, D., Schrittwieser, J., Simonyan, K., et al. 2017. Mastering the Game of Go without Human Knowledge. Nature, 550, 354–359.

[8] Sutton, R. S. 2019. The Bitter Lesson.

[9] Vaswani, A., Shazeer, N., Parmar, N., et al. 2017. Attention Is All You Need. Advances in Neural Information Processing Systems.

[10] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.

[11] Brown, T., Mann, B., Ryder, N., et al. 2020. Language Models are Few-Shot Learners. NeurIPS.

[12] Kaplan, J., McCandlish, S., Henighan, T., et al. 2020. Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361.

[13] Lewis, P., Perez, E., Piktus, A., et al. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.

[14] Radford, A., Kim, J. W., Hallacy, C., et al. 2021. Learning Transferable Visual Models from Natural Language Supervision. ICML.

[15] Bommasani, R., Hudson, D. A., Adeli, E., et al. 2021. On the Opportunities and Risks of Foundation Models. arXiv preprint arXiv:2108.07258.

[16] He, K., Chen, X., Xie, S., et al. 2022. Masked Autoencoders Are Scalable Vision Learners. CVPR.

[17] Hoffmann, J., Borgeaud, S., Mensch, A., et al. 2022. Training Compute-Optimal Large Language Models. NeurIPS.

[18] Ouyang, L., Wu, J., Jiang, X., et al. 2022. Training Language Models to Follow Instructions with Human Feedback. NeurIPS.

[19] Wei, J., Wang, X., Schuurmans, D., et al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS.

[20] Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. 2022. Large Language Models are Zero-Shot Reasoners. NeurIPS.

[21] Wang, X., Wei, J., Schuurmans, D., et al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv preprint arXiv:2203.11171.

[22] Garg, S., Tsipras, D., Liang, P., & Valiant, G. 2022. What Can Transformers Learn In-Context? A Case Study of Simple Function Classes. NeurIPS.

[23] Alayrac, J.-B., Donahue, J., Luc, P., et al. 2022. Flamingo: a Visual Language Model for Few-Shot Learning. NeurIPS.

[24] Bai, Y., Kadavath, S., Kundu, S., et al. 2022. Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.

[25] Yao, S., Zhao, J., Yu, D., et al. 2023. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR.

[26] Yao, S., Yu, D., Zhao, J., et al. 2023. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS.

[27] Schick, T., Dwivedi-Yu, J., Dessì, R., et al. 2023. Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS.

[28] Rafailov, R., Sharma, A., Mitchell, E., et al. 2023. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS.

[29] Schaeffer, R., Miranda, B., & Koyejo, S. 2023. Are Emergent Abilities of Large Language Models a Mirage? arXiv preprint arXiv:2304.15004.

[30] Zhou, S., Xu, F. F., Zhu, H., et al. 2023. WebArena: A Realistic Web Environment for Building Autonomous Agents. arXiv preprint arXiv:2307.13854.

[31] LeCun, Y. 2022. A Path Towards Autonomous Machine Intelligence. OpenReview.

[32] Trinh, T. H., Wu, Y., Le, Q. V., He, H., & Luong, T. 2024. Solving Olympiad Geometry without Human Demonstrations. Nature, 625, 476–482.

[33] Kil, J., Mai, Z., Lee, J., et al. 2024. MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs. NeurIPS.

[34] Dohare, S., Hernandez-Garcia, J. F., Lan, Q., et al. 2024. Loss of Plasticity in Deep Continual Learning. Nature, 632, 774–782.

[35] Chameleon Team. 2024. Chameleon: Mixed-Modal Early-Fusion Foundation Models. arXiv preprint arXiv:2405.09818.

[36] Xie, J., Mao, W., Bai, Z., et al. 2024. Show-o: One Single Transformer to Unify Multimodal Understanding and Generation. arXiv preprint arXiv:2408.12528.

[37] Barbero, F., Banino, A., Kapturowski, S., et al. 2024. Transformers Need Glasses! Information Over-Squashing in Language Tasks. NeurIPS.

[38] Dentella, V., Gunasekera, C., Artieda, G., et al. 2024. A Benchmark for AI Understanding. Scientific Reports, 14.

[39] Małkiński, M., Pawlonka, S., & Mańdziuk, J. 2024. Reasoning Limitations of Multimodal Large Language Models: A Case Study of Bongard Problems. ICLR Workshop / OpenReview.

[40] Agashe, S., Han, J., Gan, S., et al. 2025. Agent S: An Open Agentic Framework that Uses Computers Like a Human. ICLR.

[41] Hafner, D., Pašukonis, J., Ba, J., & Lillicrap, T. 2025. Mastering Diverse Domains through World Models. Nature.

[42] Hubert, T., Mehta, R. S., Sartran, L., et al. 2025. Olympiad-Level Formal Mathematical Reasoning with Reinforcement Learning. Nature.

[43] Pyzer-Knapp, E. O., Manica, M., Staar, P., et al. 2025. Foundation Models for Materials Discovery: Current State and Future Directions. npj Computational Materials, 11.

[44] Baek, S., Song, K., & Lee, I. 2025. Single-Cell Foundation Models: Bringing Artificial Intelligence into Cell Biology. Experimental & Molecular Medicine, 57, 2169–2181.

[45] Muennighoff, N., et al. 2025. Scaling Data-Constrained Language Models. Journal of Machine Learning Research.

[46] Kim, M. J., Pertsch, K., Karamcheti, S., et al. 2025. OpenVLA: An Open-Source Vision-Language-Action Model. CoRL / PMLR.

[47] Perez, E., Ruan, Y., Cao, H., et al. 2022. HELM: Holistic Evaluation of Language Models. arXiv preprint arXiv:2211.09110.

[48] Lin, S., Hilton, J., & Evans, O. 2022. TruthfulQA: Measuring How Models Mimic Human Falsehoods. ACL.

[49] Stanford Institute for Human-Centered AI. 2025. AI Index Report 2025.

[50] Liu, et al. 2025. Re-evaluating Open-Ended Evaluation of Large Language Models. ICLR.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

知识库问答的置信度评估

系统基于给定知识库内容生成的回答，与知识库事实匹配、符合用户真实意图、准确可用的概率，取值范围为0到1，得分越高代表回答越可信。和普通LLM生成置信度的核心区别是：KBQA的置信度有明确的「事实基准」——也就是给定的知识库内容，而不是依赖大模型本身的参数知识，所以评估结果的客观性和可解释性要强得多。我是资深AI工程师，专注于大模型落地、KBQA系统搭建，曾主导多个金融、政务领域的KBQA项目落地，

AtomGit开源社区

我用Trae在7天内做了一个外卖调度AI Agent

我用Trae在7天内做了一个外卖调度AI Agent美团校园AI Hackathon 2026 · 赛道四（配送分配优化）参赛项目复盘关键词：多智能体架构 · 自适应进化 · LLM熔断器 · Spec驱动开发 · 10秒硬时限

AtomGit开源社区

Harness Engineering：智能体长期运行稳定性

Agent Harness Engineering（以下简称Harness工程）是围绕大语言模型驱动的智能体，构建的一整套包含可观测性、故障自愈、上下文治理、资源调度、安全防护长期运行稳定性。连续无人工干预运行时长≥30天任务成功率≥99.5%故障平均恢复时间（MTTR）<1分钟核心数据隐私泄露风险为0Harness工程是智能体从Demo走向生产的必经之路，它解决了LLM灵活性和生产稳定性之间的核