Meta“神经计算机“论文引爆热议：AI不再调用软件，而是直接“长成“一台计算机

A8ai

277人浏览 · 2026-05-05 09:48:55

A8ai · 2026-05-05 09:48:55 发布

Meta"神经计算机"论文引爆热议：AI不再调用软件，而是直接"长成"一台计算机

导语

2026年4月，Meta AI与沙特阿卜杜拉国王科技大学（KAUST）的联合团队发布了一篇论文（arXiv: 2604.06425v1），提出一个大胆到近乎疯狂的概念：神经计算机（Neural Computer，NC）。

核心想法只有一句话：让神经网络不再通过预定义接口"调用"软件，而是直接从屏幕像素和用户操作中学习如何使用计算机本身——最终目标是让"软件"逐渐消失，被压缩进同一个神经网络之中。

论文公开后，在X上获得近900条转发、超过100万浏览量，迅速引爆AI学术界和开发者社区的讨论。

这可能是自Transformer以来，最具范式颠覆性的AI架构设想。

一、什么是"神经计算机"

1.1 核心概念

概念	说明
神经计算机（NC）	让神经网络直接学习计算机的运行方式，不依赖预定义接口
完全神经计算机（CNC）	终极目标——一台完全由神经网络构成的、通用的、可编程的计算机
与传统Agent的区别	不"调用"软件，而是"生成"软件运行过程

1.2 与当前AI Agent的本质区别

维度	当前AI Agent（如Claude/GPT Agent）	神经计算机（NC）
工作方式	通过预定义API/工具接口调用软件	从屏幕像素直接学习计算机运行
依赖	需要操作系统、软件、工具链的配合	不依赖任何预定义接口
输入	结构化的API请求	原始屏幕像素+用户操作
输出	调用结果	整台计算机的运行过程
灵活性	受限于可用工具的数量和质量	理论上可学习任何软件的操作

一句话概括区别：

Agent是"用计算机"，神经计算机是"成为计算机"。

1.3 技术路线

研究团队设想了两个阶段：

神经计算机（NC）：AI能够像人类一样，通过"看屏幕"和"操作"来使用计算机，但底层仍然是传统计算架构
完全神经计算机（CNC）：传统计算机的分工（处理器、内存、操作系统、软件）全部被神经网络取代——不再有操作系统，不再有软件，只有一个巨大的神经网络

二、研究团队与学术渊源

2.1 核心研究者

研究者	机构	背景
诸葛鸣晨	Meta AI / KAUST	师从于尔根·施米德胡伯
田渊栋	Meta AI	Meta AI研究科学家
于尔根·施米德胡伯（导师）	KAUST	“现代AI之父”、LSTM之父

2.2 学术脉络

诸葛鸣晨在采访中透露，他从2024年末开始与导师施米德胡伯反复讨论这个方向。核心问题是：

“AI究竟只是更高效地使用计算机，还是会成为一种新的计算机形态？”

这个问题的学术根源可以追溯到施米德胡伯1990年的论文《Make the World Differentiable》和2003年提出的"哥德尔机器"（Gödel Machine）——后者推动了一整条"递归自我进化"的研究路线。

2018年，施米德胡伯与David Ha合作发表的"世界模型"（World Models），也是这一脉络的重要里程碑——让神经网络学习世界的运行规律，而非学习特定任务。

三、为什么这个概念如此重要

3.1 当前AI Agent的瓶颈

当前的AI Agent（如使用工具调用的GPT/Claude Agent）面临几个根本性瓶颈：

接口依赖：能做的事完全取决于有多少可用API和工具，没有API就没有能力
工具爆炸：软件数量无限增长，不可能为每个软件都定义Agent工具
上下文断裂：Agent在不同工具之间切换时，上下文经常丢失
泛化困难：学会了用Chrome，不等于会用一个新的浏览器

3.2 神经计算机的突破方向

当前瓶颈	神经计算机的解法
接口依赖	不需要接口，直接从像素学习
工具爆炸	软件操作被压缩进模型内部
上下文断裂	整台计算机的运行状态都在神经网络的"记忆"中
泛化困难	学会了"使用计算机"的概念，而非特定软件的操作

3.3 对软件开发的影响

如果神经计算机从概念走向现实：

传统软件可能逐渐消失：当AI能直接"生成"软件的运行过程，为什么还需要安装软件？
操作系统的角色被重新定义：从"软件管理器"变成"神经网络运行环境"
API经济的基石可能动摇：当AI不通过API调用软件，API本身的价值就会被重新评估

四、技术可行性分析

4.1 当前的证据

证据	说明
屏幕理解能力	GPT-4o、Claude等已具备屏幕内容理解能力
操作自动化	UI自动化工具已能模拟人类操作
世界模型	施米德胡伯2018年的工作证明神经网络可以学习环境动态
代码生成	AI已能生成可运行代码，证明"程序逻辑进入模型"可行

4.2 主要挑战

挑战	难度	说明
像素级实时处理	极高	每秒60帧的高分辨率屏幕数据，计算量巨大
长程依赖	高	计算机使用涉及数千步操作，当前模型的长上下文仍有限
仿真与现实的差距	高	训练环境与真实环境的差异（sim2real gap）
可解释性	中	神经网络内部决策不可解释，安全问题如何保障？
安全性	极高	如果AI"成为计算机"，恶意利用的后果是灾难性的

4.3 距离现实还有多远

根据当前的技术进度，我的判断是：

阶段	预估时间	标志
简单NC原型	1-2年	在受限虚拟环境中完成基本计算机操作
通用NC（受限环境）	3-5年	能在虚拟桌面环境中使用多种软件
完全神经计算机（CNC）	10年+	传统计算架构被神经网络取代（如果可能的话）

诸葛鸣晨自己也承认，完全神经计算机（CNC）是一个"终极目标"，当前的研究还处于非常早期的概念验证阶段。

五、对AI开发者的启示

5.1 短期影响（1-2年）

即使完全神经计算机还很遥远，但当前的技术趋势已经对开发者产生影响：

AI Agent的屏幕理解能力在快速提升：未来的Agent可能不需要API，直接"看屏幕"就能操作软件
工具调用只是过渡形态：当前基于API的工具调用，可能只是通向"直接操作"的过渡方案
模型能力比工具数量更重要：当AI能自己"学会"使用软件，你提供的工具多不多就没那么重要了

5.2 中期影响（3-5年）

软件开发范式可能改变：从"给人用的软件"转向"给AI用的环境"
API设计需要考虑AI消费者：未来的API调用者可能主要是AI，不是人类
测试需要覆盖AI交互场景：当AI是主要用户，传统的UI测试需要扩展

5.3 对模型接入的启示

在神经计算机的愿景下，模型接入方式也会演变：

多模态能力成为刚需：屏幕像素理解、操作模拟等多模态能力是NC的基础
模型选择更加关键：不同模型的多模态能力差异巨大
聚合平台的价值提升：模型能力快速迭代，聚合平台让开发者始终能用到最强的模型

推荐方案：通过A8 AI聚合中转接入多模态能力

A8 AI（napiai.com）的核心优势：

600+模型全覆盖：包括最新多模态模型Claude Opus 4.6、GPT-5.5、Gemini等
智能路由：根据任务类型自动匹配最优模型（如视觉任务选多模态模型）
国内节点加速：无需翻墙，延迟降低50%+
持续更新：新模型上线第一时间接入，开发者无需追踪每个模型的发布

六、总结

Meta的"神经计算机"论文，本质上是在问一个根本性问题：AI的终极形态，究竟是什么？

当前阶段，我们还不知道完全神经计算机是否可行。但这个概念本身已经指出了当前AI Agent架构的根本局限——我们一直在让AI"使用"计算机，但也许AI应该"成为"计算机。

几个关键判断：

这是自Transformer以来最具范式颠覆性的AI架构设想：不是改进，而是重新定义
当前的技术证据支持其可行性，但距离实现仍有巨大鸿沟：像素级实时处理、长程依赖等挑战极为严峻
即使完全NC不可行，其研究方向也会深刻影响AI Agent的演进：从"API调用"到"屏幕操作"的迁移已经开始
开发者需要关注多模态能力的演进：屏幕理解+操作模拟能力，将是下一个竞争焦点

正如诸葛鸣晨所说：“这可能击中了当前AI发展的某个关键问题。”

我们不需要现在就相信"软件会消失"，但我们需要认真思考：当AI不再需要API就能使用计算机，你构建的一切还站得住吗？

核心关键词： 神经计算机, Meta AI, KAUST, Neural Computer, 诸葛鸣晨, 于尔根·施米德胡伯, AI Agent, 完全神经计算机, 世界模型, 哥德尔机器, AI范式, 多模态AI, API聚合, A8 AI, 软件的未来

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于Claude Code + deepseek 生成打地鼠游戏

本文介绍了终端AI工具ClaudeCode的使用方法，该工具可直接集成开发环境，通过自然语言指令完成编程任务。首先说明如何配置环境（安装Node.js、设置DeepSeek API等），然后以开发"打地鼠"游戏为例，展示完整工作流程：1）创建需求文档PRD.md；2）基于文档自动生成代码；3）最终生成可直接运行的HTML文件。整个过程无需额外插件，支持国内用户直接使用DeepS