自回归模型将死！杨立昆：你们这条路行不通

整理 | 王启隆出品丨AI 科技大本营（ID：rgznai100）当今人工智能界有三位“教父”，其中对人工智能风险问题最为乐观的便是图灵奖得主 & CNN 之父Yann LeCun（杨立昆）。LeCun 如今是 Meta 的首席人工智能科学家，也是纽约大学的教授，他常在各大会议与社交媒体上发声，与其他科学家甚至另外两位教父展开辩论。本月，MIT 研究科学家、知名播客主播 Lex Frid.

文章共8,033字 · 阅读需要大约27分钟

一键AI生成摘要，助你高效阅读

问答

AI科技大本营

4077人浏览 · 2024-03-22 16:34:07

AI科技大本营 · 2024-03-22 16:34:07 发布

整理 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

当今人工智能界有三位“教父”，其中对人工智能风险问题最为乐观的便是图灵奖得主 & CNN 之父 Yann LeCun（杨立昆）。LeCun 如今是 Meta 的首席人工智能科学家，也是纽约大学的教授，他常在各大会议与社交媒体上发声，与其他科学家甚至另外两位教父展开辩论。

本月，MIT 研究科学家、知名播客主播 Lex Fridman 推出了自己的最新节目：对 Yann LeCun 的第三次采访。这次访谈将近三小时，其中涉及了 Meta AI、开源、当前大模型的重大缺陷、作为替代的方案以及 AGI 等多个话题，本文整理了 LeCun 分享的许多想法，特此分享给广大开发者。

大模型的局限性

自回归型大语言模型（如 GPT-4 及即将推出的 LLaMA 2 和 3 等）并不是实现超级智能进阶的有效途径。

针对这一问题，LeCun 解释，智能行为的核心特征包括理解物理世界、记忆与检索信息的能力、持久记忆、推理能力和规划能力，而自回归式大语言模型在这五个方面均表现不足或仅能实现初级功能，它们无法真正理解和模拟物理世界，不具备持续的记忆和深入的推理机制，也无法进行有效的规划。

LeCun 还强调了现实环境对于智能发展的重要性，他认为人工智能需要某种程度的“体现性”或与现实世界的交互来发展智能。虽然大模型通过处理互联网上大量的文本数据（例如数以万亿计的 tokens）积累了丰富的知识库，但这些数据量相比人类及其他动物在成长过程中通过感官输入获得的信息总量仍相形见绌。

他引用了一个生动的例子，即一个四岁儿童在其短暂的生命中通过视觉通道接收的信息量远超过大模型所学习的全部文本内容。

尽管语言是高度压缩的知识载体，包含了大量的智慧和信息，但它并不能替代直接对现实世界的观察和互动。许多日常任务以及复杂的情境处理（比如驾驶车辆、抓取物体或家务活动），都需要基于对物理世界的深刻理解，并通过心理模型来进行动作序列的规划和执行，这些都与语言表达有着本质的不同。

所谓「自回归模型」，是指它们不具备预先规划答案的能力，而是基于自回归预测的方式逐词生成输出。这意味着大模型并没有像人一样先构建内在的心理模型或抽象概念，然后将这些概念转化为语言表达。相反，自回归式大模型更像是在接收到输入后直接根据已积累的知识库进行响应，一个词接着一个词地生成文本，类似于人们在无意识状态下对简单问题作出快速反应的过程。

LeCun：这并不是说大模型没有用。它们当然很有用，但它们很无趣。

LeCun 认同那些主张 AI 必须与实际环境紧密联系的研究者观点，并指出哲学家和认知科学家在这个问题上存在分歧。他认为大部分人类知识源于与现实世界的交互而非语言本身，而且目前的大模型即便能够通过某些测试展示一定的智能水平，但在涉及具体应用时，如实现自动驾驶汽车的 L5 级别或者开发出能够完成实际生活任务的家用机器人，仍然暴露出严重的能力缺失。

那么，这样的世界模型可以让大语言模型去构建吗？

LeCun 的答案是：不行。大模型的这种逐词生成的工作方式并不能确保系统具有真正的内部世界模型或深层次的思维能力，因为这样的模型缺乏对生成内容的预先计划和深思熟虑。

学术界有很多人在探索如何让大模型消化并利用非文本形式的数据，比如图像、视频和音频。通常的做法是通过训练独立的视觉系统来将这些视觉信息转化为高级的符号表示，即一种与大模型输入相兼容的令牌列表，然后将这种视觉表示与文本数据一同输入到大模型中，期望模型在训练过程中学会结合这些信息来进行决策。

然而，现有的大模型即使有了视觉扩展，却仍然存在局限性。它们并没有真正地理解和模拟世界，尤其是没有通过视频训练去捕捉直观物理学原理，如物体运动规律和空间关系等常识推理。这些模型本质上是在预测文本序列中的下一个词，并通过概率分布来采样生成可能的词汇，而非完全理解和描绘真实世界的动态和复杂性。

因此，尽管现有大模型已经在很多自然语言任务上展现出强大的性能，但要构建一个能够理解和操作现实物理世界的世界模型，目前的架构和技术还远远不够。直觉物理学和物理空间中的常识推理是一个巨大的技术难题，现今的大模型尚不具备解决这一问题的能力，至少不能以目前的训练方法和体系结构实现。

构建世界模型：JEPA 和 LLM 哪家强？

如何构建世界模型？

1. 预测与建模方式：LeCun 认同可以通过预测的方式构建世界模型，但强调仅靠语言（即预测词语序列）是不足以完成这项任务的，因为语言在表达复杂的、低信息量场景时存在局限性。他认为构建世界模型的关键是观察世界演变过程并理解其背后的因果关系，进而预测行动后的世界状态。

2. 视频预测的挑战：在视频预测的具体场景下，LeCun 指出，尽管自回归模型在文本预测（例如 GPT）上取得了一定的成功，但在视频预测中直接套用类似方法则遇到了难题。要预测视频帧的概率分布而非单一帧，目前还没有找到恰当的方法来有效处理这种高维连续数据。

3. 潜在变量与失败尝试：LeCun 提到 Meta 团队曾长期研究使用潜在变量模型来解决这个问题，即通过引入神经网络中的隐变量来表征那些尚未感知但仍对预测结果至关重要的信息。然而，无论是直接训练神经网络、使用 GANs、VAEs 等不同类型的生成模型，还是试图通过自我监督式的图像重构来学习高质量的图像或视频表示，这些方法均未能成功地捕捉到足够精细的细节以进行准确预测。

4. 技术难点与替代方案：当前的主要难点在于如何在高维连续空间中有效地表示概率分布，并由此获取有用的信息。对于基于重建的自我监督学习方法，LeCun 认为虽然架构本身有价值，但仅仅通过让系统学习从受损图像恢复原始图像的方式来获得通用且高质量的特征表示并不奏效。

他进一步提出了「联合嵌入预测架构」——“JEPA”（Joint-Embedding Predictive Architecture）作为替代方案。

对比学习是早期用于防止系统崩溃、确保模型学习有意义表征的一种方法。这种方法要求不仅让相似图像的表示接近，还要让不同图像的表示相互远离。然而，对比学习存在局限性，比如需要正负样本对来进行有效训练。近年来，它不再依赖于传统的通过重构受损图像来学习特征的方法，而是采用了一种新颖的联合嵌入策略。

在 JEPA 中，原始图像和其受损版本或变换版本同时输入到两个编码器（通常是相同的架构，但不绝对要求如此）。然后，在这两个编码器输出的共同嵌入空间上训练一个预测器，该预测器的任务是从受损图像的嵌入表示中预测出原始完整图像的嵌入表示。这种设计避免了直接对整个图像进行重建的复杂性，并尝试利用两个图像之间的内在关联来提取有价值的信息。

那么，JEPA 和大模型的差别是什么？JEPA 是否能够引领我们达到 AGI？

LeCun 的观点主要体现在以下几个方面：

1. JEPA 与大模型的差异：相较于大语言模型那种试图重建或生成输入全部细节的方式，JEPA 更注重于从输入中提取并预测抽象的表示。在 JEPA 中，系统的目标是抽取可轻易预测的信息，并剔除那些难以预测且不重要的细节，如自动驾驶汽车视角下的树叶随机摆动等非关键视觉信息。

2. 抽象层次提升的重要性：JEPA 在训练过程中追求学习世界的抽象表示，类似于人类在描述现象时会采用不同抽象层次的方法，而非总是采用最底层的详细描述（如量子物理级别）。通过将复杂现实世界简化为可建模和预测的抽象层面，JEPA 能够更高效地处理信息。

3. 自我监督学习和冗余性：在感知输入（如视觉）中存在大量的冗余信息，这使得 JEPA 类型的自监督学习算法可以从数据中捕捉到更多的内部结构。相比之下，文本信息虽然压缩得更为紧凑，但其冗余度较低，因此在语言领域的自我监督学习可能不如在感知领域有效。

4. 语言与视觉的结合：尽管语言模型可以提供某种程度的抽象表达，但要实现真正的通用智能，需要解决如何将基于视觉数据的自我监督学习与基于语言数据的学习相结合的问题。LeCun 认为目前在视觉-语言模型上的做法实际上是利用语言来弥补视觉系统的不足，而不是真正理解世界的方式。

5. JEPA 对常识和行动规划的重要性：LeCun 希望 JEPA 能够学习像猫、狗那样不具备语言能力但能理解和适应环境的生物所拥有的“常识”，即如何通过观察世界进行预测并据此做出复杂的行动规划。

6. JEPA 的具体技术应用：FAIR 研究团队正在开发的一些基于 JEPA 思想的非对比性学习方法，例如 BYOL、vcREG、I-JEPA 和 DINO 等，它们旨在通过自编码器结构以及对输入进行变换和预测的方式来训练网络，从而获得更好的表示学习效果。

自回归将死！

自回归语言模型是有上限的，特别是在处理常识推理、物理世界理解和抽象概念学习方面皆有不足。

LeCun 认为，尽管大模型在生成大量文本和模拟对话方面表现出令人惊叹的能力，但它们缺乏从底层到高层的连续性知识结构，尤其是欠缺对现实世界的直接感知经验，这是人类婴儿时期通过观察和互动获得的低层次常识基础。

大模型纯粹基于文本训练，这意味着它们无法像人类那样通过视觉、听觉、触觉等多种感官输入以及与环境交互来积累对世界的全面理解。虽然文本中蕴含了丰富的信息，包括一些隐含的现实世界知识，但并非所有关于世界运作机制的基础常识都能在书面或口头表达中找到明确的记载。例如，即使没有直接解释重力的工作原理，人们也能从大量文本中推断出相关概念，但对于 AI 系统来说，这种推理过程可能受限于它所接触到的文本数据的质量和范围。

基于此，Lecun 还解答了大语言模型不可避免的“幻觉”问题：

由于模型每次生成一个词时都有一定的概率导致答案偏离合理范围，并且随着生成序列的增长，这种概率以指数方式递增，从而使得模型输出有意义内容的可能性逐渐降低。

尽管人们可能认为训练数据中包含了许多真实情况，理论上可以引导模型趋向正确答案，但实际情况受到维度灾难的影响。即使对大量常见问题进行微调和训练，让模型学会生成高质量的回答，也难以覆盖所有可能的输入提示或问题空间。因为未被训练过的提示集合是巨大的，实际训练所用的提示只占其中极小一部分。

在某些情况下，只需轻微改变输入的提示内容，比如插入一组随机字符或替换几个单词为另一种语言中的同义词，就足以使模型脱离其训练条件，进而产生完全不相关的胡言乱语。这表明模型对于未曾遇到过的输入特别敏感和脆弱，即便是一些看似合理的变化也可能使其失效。

要构建能有效进行常识推理并具备连贯世界模型的人工智能，必须超越当前的自回归模型框架，引入其他学习机制，如 JEPA 或多模态学习，以整合不同层次的知识和感知信息。

LeCun 提倡在 AI 系统训练的过程中，减少对强化学习的依赖。

对于强化学习，他提出应将其作用限定在特定情况下：当预先学习到的世界模型无法准确预测结果时，才使用强化学习来调整和完善该模型或其评价部分。也就是说，推荐使用模型预测控制（MPC）作为主要决策框架，而将强化学习用于修正实际操作中模型预测不准确的情况。

关于强化学习带有人类反馈（RLHF）的成功应用，LeCun 指出真正带来显著改进的是人类反馈机制本身，而非强化学习这一框架。通过让人类对 AI 系统生成的答案进行打分，可以训练一个目标函数来预测答案质量，并用此函数指导系统微调，从而促使系统产生高质量的回答。这个过程类似于在强化学习中训练奖励模型，但它并非直接应用于规划，而是用于后期对系统的参数进行精细化调整。

AI 本身存在的问题，可以靠开源解决吗？

针对 Gemini 1.5 最近的翻车风波，LeCun 也发表了自己的观点。他认为在当前技术和社会环境下，无法创造出一个完全无偏见的 AI 系统，因为偏见本质上取决于观察者的主观判断，不同的个体对何为偏见有不同的认知。

LeCun 引用了 Marc Andreessen 的观点，指出只有初创公司和开源项目能够有效规避大公司在推出生成式 AI 产品过程中遇到的一系列复杂难题。解决之道在于确保 AI 系统的多样性与开放性，类似于新闻自由和言论自由在民主社会中的作用。随着 AI 助手在未来生活中扮演越来越重要的角色，包括智能眼镜、实时翻译等应用中，人们的信息获取将越来越多地依赖这些系统。为了避免由少数几家公司控制所有人类知识库的局面，需要保证 AI 系统的多元化来源。

目前训练大语言模型的成本高昂，仅少数公司能够承担，但如果顶级的模型是开源的，则任何个人、组织或政府都能对其进行微调以适应各自的需求和数据，从而形成多种具有不同专业领域、语言、文化背景和价值观念的 AI 系统。

LeCun 跟法国政府有过多次谈话，而后者不会接受他们所有公民的数字生活被美国西海岸的三家公司控制，这不仅对民主构成威胁，也会损害本土文化和价值观。他还提及了印度、塞内加尔等地利用开源 AI 模型进行本地化调整的实例，强调只有通过开源平台，才能发展出既具备多元政治观点、又涵盖语言、文化及各种专业技术能力的 AI 生态系统，并催生专门针对各行各业垂直应用的 AI 行业。

如何在开源这些基础模型的同时实现商业盈利？LeCun 的观点是，通过多种商业模式来解决这一问题。

首先，Meta 等公司可以基于其庞大的用户和客户基础提供服务，并通过广告或向企业客户收费的方式获得收益。例如，Meta 可以利用模型技术帮助企业（如小型披萨店）通过 WhatsApp 与客户沟通并处理订单，企业将为此付费。

其次，即使开放源代码让其他竞争者也能提供针对特定业务的微调模型，Meta 仍然可以通过已有的大规模客户群体和平台优势来确保自身的竞争力。换句话说，Meta 押注的是自身已经拥有的庞大用户和客户基础，无论提供的何种服务都会对他们有价值，并且可以从这个价值中找到收入来源。

最后，Meta 认为将基础模型以开源形式发布并不会损害其盈利能力。实际上，开放源代码能够吸引大量开发者下载、使用和改进模型，从而加速技术创新进程。数百万次的 LLaMA 2 下载量以及众多关于如何改进模型的建议，表明了开源所带来的积极影响。成千上万的企业正在基于这些开源基础模型构建应用程序，而 Meta 完全可以通过购买或合作等方式，从这些由开源驱动的技术进步中获取收益。

LeCun 透露 LLaMA 3 近况：当前的研究方向是在视频训练基础上构建世界模型，先前发布的 V-JEPA 便是 Meta 向视频训练系统迈出的第一步。LeCun 对于机器学习和人工智能领域近期取得的进步感到非常兴奋，特别是看到了通往具有理解、记忆、计划和推理能力的人类级别智能系统的路径。目前 GPU 的能耗远高于人脑，若要打造真正媲美甚至超越人脑智能的 AGI，硬件革新不可或缺。

AGI 还没那么快

LeCun 认为 AGI 不会在短期内突然出现，而是需要经过一个渐进而漫长的过程才能达到人类级别的智能水平。

AGI 的到来不是一场突如其来的事件，它不会像科幻电影和好莱坞描绘的那样，有人突然发现制造 AGI 的秘密并瞬间开启一台拥有这种智能的机器。相反，通向 AGI 的道路将是一步一步、逐步积累的过程。目前，虽然我们已经在让系统通过视频学习世界运作规律、学习优秀表示法等方面取得了一定进展，但要达到与人类相媲美的规模和性能仍需相当长的时间。

此外，构建具有大量关联记忆能力、能进行推理和目标驱动式规划的系统也是必要的，而将这些技术整合到一个完整的体系中是一项艰巨的任务。要实现能够进行层次化规划、层次化表征，并能针对不同情境灵活配置自身功能的系统，至少需要十年或更长时间，因为在当前的研究框架下，还有许多未预见的问题尚待解决。

人们对 AGI 持有永恒乐观态度的原因不只是莫拉维克悖论（Moravec's paradox）。莫拉维克悖论揭示了世界的复杂性远超我们的想象，而智能并不是可以通过单一尺度或数值衡量的一维线性概念。智能实际上是多种技能集合以及高效获取新技能的能力，且不同的智能实体所擅长和易于掌握的技能各不相同，因此在多维度的空间里无法简单比较两个实体谁更聪明。

由于智能的多维度属性，衡量和预测 AGI 的实现时间需要更为谨慎，而非盲目乐观地认为其就在眼前。LeCun 批判了一些在过去 15 年间不断错误预测 AGI 即将到来的人士，强调 AGI 的发展并非一蹴而就的事情。

对于那些宣扬人工智能末日的 AI 悲观论者（AI doomers），LeCun 也用同样的道理驳回：他们设想的人工智能逃脱控制并导致人类灭绝的情境建立在一系列不实假设之上，AGI 不是一个会突然发生的事件，而是逐步发展、不断改进的过程。

事实上，智能系统并不必然具有主宰他者的欲望。这种认知源于对自然界中更聪明物种通常占据主导地位现象的误解。但实际上，智能系统的主宰欲并不是一种固有属性，而是在社交物种中如人类、黑猩猩等才存在的内在驱动。人工智能系统不会构成与人类竞争的物种，也不会有统治欲，因为这种欲望需要被硬编码到系统中。人们设计人工智能时自然会有动机使其服从人类，并且通过构建目标驱动型 AI，在优化目标中包含各种“护栏”，比如服从人类指令，或在特定情况下为了保护他人而不服从。虽然像大语言模型这样当前尚未完全可控的系统存在，但目标驱动型 AI 则可以通过明确的目标优化来实现行为约束。

LeCun 承认，设计这些“护栏”以确保系统正确行为并非易事，需要逐步迭代地进行系统设计。他引用了涡轮喷气发动机的发展历程作为类比，表明通过长期的细致调整可以实现高度可靠和安全的设计。他认为，在人工智能领域同样如此，提高 AI 系统的性能和可控性本身就是增强其安全性，无需专门的安全措施，而在于不断提升和完善 AI 系统本身。

针对能够极度说服人心的 AI 系统潜在的风险，LeCun 认为即使有这样的技术，也会有一个相抗衡的过程，我们可以让 AI 对抗 AI。任何试图操控大众的 AI 系统都将不得不面对同样智能甚至更智能的用户个人 AI 助手，这些助手会起到过滤和防护作用，识别并屏蔽虚假信息，就像垃圾邮件过滤器一样。因此，即使有人企图利用此类系统作恶，也难以绕过个体的智能屏障直接达到操纵目的。

历史上每一次科技革命或文化现象都伴随着类似的负面反应，但很多担忧最终并未成为现实。对待变化应持拥抱态度，区分真正的风险与想象中的风险——至于很多人担心的“大公司掌控人工智能”这一点，实际上前文也已经给出了答案，那就是开源。

未来是充满希望的

上周 AI 科技大本营介绍了 OpenAI 赋能的人形机器人，而 LeCun 在这次访谈也就人形机器人这一问题发表了许多观点：他认为在未来十年内，机器人领域将会有非常有趣的发展，但要实现数以百万计的人形机器人在社会中广泛使用尚需时日。目前机器人行业受限于莫拉维克悖论，即如何让机器人理解世界并进行有效规划，虽然在特定任务上已取得一定成果，但在实现完全自主级别（如自动驾驶 L5）方面还有很长的路要走，这需要依赖于能够自我训练理解世界的强大世界模型技术的进步。

人形机器人在家用环境中的广泛应用将为我们提供一个直接与AI系统在物理空间互动的机会，有助于从哲学和心理学角度探索人与机器人之间的关系。LeCun 还鼓励对这一领域感兴趣的学生从事博士研究，并提出了几个研究方向的建议：如何通过观察训练世界模型、如何基于学习到的世界模型进行规划以及如何实现分层规划，特别是在没有大量计算资源的情况下找到创新的可能性。这些方向均有大量的未解决问题有待深入研究和突破。

Lex Fridman 最后询问 LeCun，在面对当前世界存在的战争、分裂、仇恨与歧视等诸多问题时，是什么让他对人类未来充满希望？LeCun 回答，人工智能将给人类带来巨大的希望，因为它能够放大人类的智能，就像每个人拥有一个由聪明的 AI 助手组成的团队，这些助手甚至可能比我们更聪明，能以我们无法企及的方式高效地执行任务。通过这种方式，人工智能使每个人都如同拥有一支超级智能的虚拟团队，这不仅不是威胁，反而是极大的助力。人工智能将会在专业和私人生活中的各种任务上协助我们，提升我们的智慧，从而减少因缺乏智慧或知识而导致的人类错误。

历史上，印刷术的普及使得更多人有机会接触到书籍、学习阅读，并促进了启蒙运动、哲学发展、科学进步与民主制度的诞生。尽管它也引发了宗教冲突等负面效应，但总体来看，其积极作用远大于负面影响。因此，LeCun 提醒人们警惕类似历史上奥斯曼帝国禁止印刷术的情况。

Fridman 和 LeCun 都相信「人性本善」，如果人工智能（尤其是开源的人工智能）能够让人们变得更聪明，那也必将释放人性中善良的一面。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行，特邀近 50 位技术领袖和行业应用专家，与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。