Meta“神经计算机“论文引爆热议:AI不再调用软件,而是直接“长成“一台计算机
Meta"神经计算机"论文引爆热议:AI不再调用软件,而是直接"长成"一台计算机
导语
2026年4月,Meta AI与沙特阿卜杜拉国王科技大学(KAUST)的联合团队发布了一篇论文(arXiv: 2604.06425v1),提出一个大胆到近乎疯狂的概念:神经计算机(Neural Computer,NC)。
核心想法只有一句话:让神经网络不再通过预定义接口"调用"软件,而是直接从屏幕像素和用户操作中学习如何使用计算机本身——最终目标是让"软件"逐渐消失,被压缩进同一个神经网络之中。
论文公开后,在X上获得近900条转发、超过100万浏览量,迅速引爆AI学术界和开发者社区的讨论。
这可能是自Transformer以来,最具范式颠覆性的AI架构设想。
一、什么是"神经计算机"
1.1 核心概念
| 概念 | 说明 |
|---|---|
| 神经计算机(NC) | 让神经网络直接学习计算机的运行方式,不依赖预定义接口 |
| 完全神经计算机(CNC) | 终极目标——一台完全由神经网络构成的、通用的、可编程的计算机 |
| 与传统Agent的区别 | 不"调用"软件,而是"生成"软件运行过程 |
1.2 与当前AI Agent的本质区别
| 维度 | 当前AI Agent(如Claude/GPT Agent) | 神经计算机(NC) |
|---|---|---|
| 工作方式 | 通过预定义API/工具接口调用软件 | 从屏幕像素直接学习计算机运行 |
| 依赖 | 需要操作系统、软件、工具链的配合 | 不依赖任何预定义接口 |
| 输入 | 结构化的API请求 | 原始屏幕像素+用户操作 |
| 输出 | 调用结果 | 整台计算机的运行过程 |
| 灵活性 | 受限于可用工具的数量和质量 | 理论上可学习任何软件的操作 |
一句话概括区别:
Agent是"用计算机",神经计算机是"成为计算机"。
1.3 技术路线
研究团队设想了两个阶段:
- 神经计算机(NC):AI能够像人类一样,通过"看屏幕"和"操作"来使用计算机,但底层仍然是传统计算架构
- 完全神经计算机(CNC):传统计算机的分工(处理器、内存、操作系统、软件)全部被神经网络取代——不再有操作系统,不再有软件,只有一个巨大的神经网络
二、研究团队与学术渊源
2.1 核心研究者
| 研究者 | 机构 | 背景 |
|---|---|---|
| 诸葛鸣晨 | Meta AI / KAUST | 师从于尔根·施米德胡伯 |
| 田渊栋 | Meta AI | Meta AI研究科学家 |
| 于尔根·施米德胡伯(导师) | KAUST | “现代AI之父”、LSTM之父 |
2.2 学术脉络
诸葛鸣晨在采访中透露,他从2024年末开始与导师施米德胡伯反复讨论这个方向。核心问题是:
“AI究竟只是更高效地使用计算机,还是会成为一种新的计算机形态?”
这个问题的学术根源可以追溯到施米德胡伯1990年的论文《Make the World Differentiable》和2003年提出的"哥德尔机器"(Gödel Machine)——后者推动了一整条"递归自我进化"的研究路线。
2018年,施米德胡伯与David Ha合作发表的"世界模型"(World Models),也是这一脉络的重要里程碑——让神经网络学习世界的运行规律,而非学习特定任务。
三、为什么这个概念如此重要
3.1 当前AI Agent的瓶颈
当前的AI Agent(如使用工具调用的GPT/Claude Agent)面临几个根本性瓶颈:
- 接口依赖:能做的事完全取决于有多少可用API和工具,没有API就没有能力
- 工具爆炸:软件数量无限增长,不可能为每个软件都定义Agent工具
- 上下文断裂:Agent在不同工具之间切换时,上下文经常丢失
- 泛化困难:学会了用Chrome,不等于会用一个新的浏览器
3.2 神经计算机的突破方向
| 当前瓶颈 | 神经计算机的解法 |
|---|---|
| 接口依赖 | 不需要接口,直接从像素学习 |
| 工具爆炸 | 软件操作被压缩进模型内部 |
| 上下文断裂 | 整台计算机的运行状态都在神经网络的"记忆"中 |
| 泛化困难 | 学会了"使用计算机"的概念,而非特定软件的操作 |
3.3 对软件开发的影响
如果神经计算机从概念走向现实:
- 传统软件可能逐渐消失:当AI能直接"生成"软件的运行过程,为什么还需要安装软件?
- 操作系统的角色被重新定义:从"软件管理器"变成"神经网络运行环境"
- API经济的基石可能动摇:当AI不通过API调用软件,API本身的价值就会被重新评估
四、技术可行性分析
4.1 当前的证据
| 证据 | 说明 |
|---|---|
| 屏幕理解能力 | GPT-4o、Claude等已具备屏幕内容理解能力 |
| 操作自动化 | UI自动化工具已能模拟人类操作 |
| 世界模型 | 施米德胡伯2018年的工作证明神经网络可以学习环境动态 |
| 代码生成 | AI已能生成可运行代码,证明"程序逻辑进入模型"可行 |
4.2 主要挑战
| 挑战 | 难度 | 说明 |
|---|---|---|
| 像素级实时处理 | 极高 | 每秒60帧的高分辨率屏幕数据,计算量巨大 |
| 长程依赖 | 高 | 计算机使用涉及数千步操作,当前模型的长上下文仍有限 |
| 仿真与现实的差距 | 高 | 训练环境与真实环境的差异(sim2real gap) |
| 可解释性 | 中 | 神经网络内部决策不可解释,安全问题如何保障? |
| 安全性 | 极高 | 如果AI"成为计算机",恶意利用的后果是灾难性的 |
4.3 距离现实还有多远
根据当前的技术进度,我的判断是:
| 阶段 | 预估时间 | 标志 |
|---|---|---|
| 简单NC原型 | 1-2年 | 在受限虚拟环境中完成基本计算机操作 |
| 通用NC(受限环境) | 3-5年 | 能在虚拟桌面环境中使用多种软件 |
| 完全神经计算机(CNC) | 10年+ | 传统计算架构被神经网络取代(如果可能的话) |
诸葛鸣晨自己也承认,完全神经计算机(CNC)是一个"终极目标",当前的研究还处于非常早期的概念验证阶段。
五、对AI开发者的启示
5.1 短期影响(1-2年)
即使完全神经计算机还很遥远,但当前的技术趋势已经对开发者产生影响:
- AI Agent的屏幕理解能力在快速提升:未来的Agent可能不需要API,直接"看屏幕"就能操作软件
- 工具调用只是过渡形态:当前基于API的工具调用,可能只是通向"直接操作"的过渡方案
- 模型能力比工具数量更重要:当AI能自己"学会"使用软件,你提供的工具多不多就没那么重要了
5.2 中期影响(3-5年)
- 软件开发范式可能改变:从"给人用的软件"转向"给AI用的环境"
- API设计需要考虑AI消费者:未来的API调用者可能主要是AI,不是人类
- 测试需要覆盖AI交互场景:当AI是主要用户,传统的UI测试需要扩展
5.3 对模型接入的启示
在神经计算机的愿景下,模型接入方式也会演变:
- 多模态能力成为刚需:屏幕像素理解、操作模拟等多模态能力是NC的基础
- 模型选择更加关键:不同模型的多模态能力差异巨大
- 聚合平台的价值提升:模型能力快速迭代,聚合平台让开发者始终能用到最强的模型
推荐方案:通过A8 AI聚合中转接入多模态能力
A8 AI(napiai.com)的核心优势:
- 600+模型全覆盖:包括最新多模态模型Claude Opus 4.6、GPT-5.5、Gemini等
- 智能路由:根据任务类型自动匹配最优模型(如视觉任务选多模态模型)
- 国内节点加速:无需翻墙,延迟降低50%+
- 持续更新:新模型上线第一时间接入,开发者无需追踪每个模型的发布
六、总结
Meta的"神经计算机"论文,本质上是在问一个根本性问题:AI的终极形态,究竟是什么?
当前阶段,我们还不知道完全神经计算机是否可行。但这个概念本身已经指出了当前AI Agent架构的根本局限——我们一直在让AI"使用"计算机,但也许AI应该"成为"计算机。
几个关键判断:
- 这是自Transformer以来最具范式颠覆性的AI架构设想:不是改进,而是重新定义
- 当前的技术证据支持其可行性,但距离实现仍有巨大鸿沟:像素级实时处理、长程依赖等挑战极为严峻
- 即使完全NC不可行,其研究方向也会深刻影响AI Agent的演进:从"API调用"到"屏幕操作"的迁移已经开始
- 开发者需要关注多模态能力的演进:屏幕理解+操作模拟能力,将是下一个竞争焦点
正如诸葛鸣晨所说:“这可能击中了当前AI发展的某个关键问题。”
我们不需要现在就相信"软件会消失",但我们需要认真思考:当AI不再需要API就能使用计算机,你构建的一切还站得住吗?
核心关键词: 神经计算机, Meta AI, KAUST, Neural Computer, 诸葛鸣晨, 于尔根·施米德胡伯, AI Agent, 完全神经计算机, 世界模型, 哥德尔机器, AI范式, 多模态AI, API聚合, A8 AI, 软件的未来
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)