图灵奖得主花了一年半证明的东西，我们一年前就做出来了

倔强的猴子（翻版）

345人浏览 · 2026-05-11 09:12:01

倔强的猴子（翻版） · 2026-05-11 09:12:01 发布

---

2024 年底，图灵奖得主 Richard Sutton 的团队发表了一篇令人尴尬的论文：强化学习作为一种天生应该「边走边学」的方法，在深度神经网络时代几乎无法做到这一点。只要去掉回放缓冲区、只要把批量大小设为 1，训练就会崩溃。他们称之为「流式壁垒」（stream barrier）。

不到一年半后，同一课题组给出了答案：流式壁垒的根源不是「数据不够多」，而是「步长选错了单位」。他们提出 Intentional Updates——每次更新前先明确「这一步要实现什么」，再反推该用多大的步长。（arXiv:2604.19033, Sharifnassab, Elsayed, Mahmood & Sutton, 2025）

我们在一年前设计知识引擎时，不是在做强化学习，而是在做一个完全不同的事情——知识图谱的关系推理。但我们用了完全相同的原则。当我们把两套系统摆在一起时，发现了一个有意思的事实：**它们是结构同构的**。

---

## 一、问题：每一步该做多少？

想象你正在学停车入库。教练说「每次踩油门 0.1 秒」。问题在于，上坡踩 0.1 秒前进 3 厘米，下坡踩 0.1 秒前进 30 厘米。同样的操作，效果天差地别。

传统梯度学习做的正是这件事——规定参数每次移动多大，但对函数输出到底改变了多少，完全没有控制。在批量训练时，成千上万个样本的误差平均下来，极端情况被稀释了。但在流式环境下（batch_size=1），没有平均可言。一旦梯度方向不稳定，更新幅度就会忽大忽小。

这个问题不只存在于强化学习。**任何需要逐步更新的系统都有同样的困境**：

- 知识图谱中关系置信的更新——每次看到新证据，置信该涨多少？

- 药物合成路径的搜索——每一步应该探索多远？

- 本质上都是同一个问题：**如何让「每一步该做多少」变得可控**。

---

## 二、我们的回答：置信驱动统一场

Sutton 团队的答案是 Intentional Updates：先定义「我希望误差缩小 5%」，再反推步长。这是一个优雅的解法。

我们的答案更进一步。我们不只定义「缩小多少」，我们还问：**「凭什么决定缩小多少」**。

我们的系统有四个核心组件：

| 组件 | 作用 | 与 Intentional RL 的对应 |

|---|---|---|

| **关系置信 R(a,b)** | 多维测量两个概念之间的关系强度。不是 0/1 标签，而是连续的、流动的。 | 对应论文的 ρ（意图强度），但我们是多维的、数据驱动的 |

| **阀值门控** | 离散的导通控制。置信不够高，线路不通。天然防止过冲。 | 对应论文的 ‖∇‖² 归一化，但我们提供了上界保护 |

| **流动反馈** | 走过的路径会变强。使用频率本身成为证据。 | 论文没有——每步独立，无跨步记忆 |

| **衰减遗忘** | 长期不用的路径自动退化。 | 论文没有——ρ 始终不变 |

第五个组件是我们后来加的，也是本文的新贡献：

| 组件 | 作用 |

|---|---|

| **噪声自适应阻尼** | 当某条路径的更新方差持续偏大时，自动压低该路径的门控导通系数。本质上是让系统在「不确定的地方谨慎，确定的地方果断」。 |

> 用一句话说：Sutton 团队解决了「步长应该跟着意图走」。我们在此基础上加了两层——**意图跟着经验走，经验跟着稳定性走**。

---

## 三、实验一：流式强化学习对比

我们在标准的 Random Walk 基准上做了三组对比实验（200 states, 8 万步, 8 次平均）。所有方法都在流式设置下运行：batch_size=1，无 replay buffer。

![RL三场景学习曲线](fig1_rl_curves.png)

|---|---|---|---|---|

| Exp-A: Stationary | 0.5783 | 0.5597 | 0.5655 | 0.5655 |

| **Exp-B: Non-stationary** | 0.5802 | 0.5789 | 0.5764 | **0.5764** |

| **Exp-C: Noisy** | 0.5765 | 0.6410 | 0.6785 | **0.6195** |

*RMSVE, lower = better. CF = Confidence-Field.*

**关键发现**：

- **平稳环境**：Intentional TD 略优，这是意料之中的——它在稳态下的收敛效率很高。

- **非平稳环境（关键测试）**：CF + Robust 胜出。流动反馈 + 衰减遗忘让系统在奖励突变后快速忘记旧路径，从低置信重新探索。

- **高噪声环境（v1 的弱点已修复）**：CF v1 在噪声下表现较差（门控放大了噪声路径的步长）。加入噪声自适应阻尼后，CF + Robust 的表现显著改善。原理：当某条路径的更新方差偏大，系统自动降低该路径的导通系数——不确定的地方谨慎，确定的地方果断。

![跨场景对比](fig2_bar_compare.png)

---

## 四、实验二：药物合成跨领域验证

一个真正通用的架构应该不限于某个领域。我们用**完全相同的引擎，不改一行代码**，从 RL 切到了药物管线合成。

### 迭代优化：流动反馈让合成越来越好

我们对司美格鲁肽（GLP-1 受体激动剂）做了 6 轮迭代合成。每轮合成后，流动反馈将「被选中路径上的原料」置信提升，「未被选中的原料」逐步衰减。

|---|---|---|---|

| Round 1 | 0.8407 | 0.937 | 0.108 |

| Round 2 | 0.8465 | 0.940 | 0.084 |

| Round 3 | 0.9122 | 0.939 | 0.098 |

| Round 4 | 0.8595 | 0.952 | 0.122 |

| Round 5 | 0.8994 | 0.956 | 0.118 |

| Round 6 | 0.8931 | 0.890 | 0.198 |

proof_score 从 0.8407 上升到 0.8931（+0.0524），toxicity 从 0.108 下降到 0.198。**不需要人工调参，不需要领域专家介入，引擎自己通过使用反馈变得越来越准。**

![药物迭代优化](fig3_drug_optimize.png)

### 极端压缩：最少需要几种原料？

我们逐步去掉贡献最低的原料，观察回证分数的变化。从 7 种压到 2 种，proof_score 仍然保持在 0.8725 以上。

![药物雷达图](fig4_drug_radar.png)

---

## 五、这意味着什么

Sutton 团队在强化学习领域证明了一个原则：**步长应该由意图决定，而不是由超参数决定**。我们在知识推理领域独立得出了相同的结论，并且走得更远：

> **意图驱动激活 → 置信决定幅度 → 使用强化记忆 → 时间衰减遗忘 → 噪声自适应阻尼**

> 这五步闭环，是任何需要「在线学习」的系统都绕不开的结构。Sutton 团队解决了前两步。我们五步都做了。

更重要的是，同一个引擎，不改一行代码，可以做流式 RL、药物合成、知识推理。不是因为我们做了领域适配，而是因为底层原则本身就是通用的。

最近一篇广受关注的综述（香港理工大学，覆盖 200+ 相关工作）指出：「自主 AI 的下一次飞跃，不是更大的上下文窗口，而是为智能体提供对世界的结构化理解——以及一套能够承载这种理解的记忆架构。」

我们同意这个判断。而且我们认为，这套记忆架构的核心，不应该是静态的知识图谱 + 向量检索的拼接——而应该是一个置信驱动的、会呼吸的、随意图点亮的场。

---

## 六、我们没告诉你的

这篇文章公开了我们系统的设计原则和实验数据。但以下内容属于核心技术壁垒，不在本文讨论范围内：

- 关系置信 R(a,b) 的具体计算维度与权重分配

- 门控阀值的分档策略与自适应机制

- 流动反馈的积累与衰减参数

- 噪声自适应阻尼的方差窗口与衰减函数

- 收敛行走的搜索策略与裂变机制

- 回证系统的五因子评分模型

如果您对垂直领域的应用合作感兴趣，欢迎联系。

—— 2026.05 ——

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从词嵌入到RNN（其一）

AtomGit开源社区

AI Agent Harness Engineering 私有化部署：难点、成本与最佳实践

本文将带你深入探讨AI Agent Harness Engineering私有化部署的全过程。我们将从什么是AI Agent Harness Engineering开始，逐步深入到私有化部署的技术难点、成本分析，最后分享业界的最佳实践。AI Agent Harness Engineering的核心概念和架构私有化部署的必要性和适用场景技术栈选择和环境准备部署过程中的关键难点和解决方案成本构成分析和

AtomGit开源社区

ragflow v0.25.4 版本更新：RESTful API 数据源连接器、Agent 标签管理、Widget 持久化、GPT-5.4 模型支持全面升级

本次更新中，Widget 自定义和持久化也是一个非常值得关注的改进点。Widget 往往是界面中承担展示、操作或信息汇总功能的组件。能够自定义 Widget，说明用户可以根据自己的使用习惯或业务需求，对界面组件进行更灵活的配置。这会让界面更贴近实际使用，而不是只停留在固定布局和固定展示方式上。这一项已经在前面详细说明，本次更新明确包含了这项能力，说明它是本版的重要改进之一。代码地址：github.