图灵奖得主花了一年半证明的东西,我们一年前就做出来了







---
2024 年底,图灵奖得主 Richard Sutton 的团队发表了一篇令人尴尬的论文:强化学习作为一种天生应该「边走边学」的方法,在深度神经网络时代几乎无法做到这一点。只要去掉回放缓冲区、只要把批量大小设为 1,训练就会崩溃。他们称之为「流式壁垒」(stream barrier)。
不到一年半后,同一课题组给出了答案:流式壁垒的根源不是「数据不够多」,而是「步长选错了单位」。他们提出 Intentional Updates——每次更新前先明确「这一步要实现什么」,再反推该用多大的步长。(arXiv:2604.19033, Sharifnassab, Elsayed, Mahmood & Sutton, 2025)
我们在一年前设计知识引擎时,不是在做强化学习,而是在做一个完全不同的事情——知识图谱的关系推理。但我们用了完全相同的原则。当我们把两套系统摆在一起时,发现了一个有意思的事实:**它们是结构同构的**。
---
## 一、问题:每一步该做多少?
想象你正在学停车入库。教练说「每次踩油门 0.1 秒」。问题在于,上坡踩 0.1 秒前进 3 厘米,下坡踩 0.1 秒前进 30 厘米。同样的操作,效果天差地别。
传统梯度学习做的正是这件事——规定参数每次移动多大,但对函数输出到底改变了多少,完全没有控制。在批量训练时,成千上万个样本的误差平均下来,极端情况被稀释了。但在流式环境下(batch_size=1),没有平均可言。一旦梯度方向不稳定,更新幅度就会忽大忽小。
这个问题不只存在于强化学习。**任何需要逐步更新的系统都有同样的困境**:
- 知识图谱中关系置信的更新——每次看到新证据,置信该涨多少?
- 药物合成路径的搜索——每一步应该探索多远?
- 本质上都是同一个问题:**如何让「每一步该做多少」变得可控**。
---
## 二、我们的回答:置信驱动统一场
Sutton 团队的答案是 Intentional Updates:先定义「我希望误差缩小 5%」,再反推步长。这是一个优雅的解法。
我们的答案更进一步。我们不只定义「缩小多少」,我们还问:**「凭什么决定缩小多少」**。
我们的系统有四个核心组件:
| 组件 | 作用 | 与 Intentional RL 的对应 |
|---|---|---|
| **关系置信 R(a,b)** | 多维测量两个概念之间的关系强度。不是 0/1 标签,而是连续的、流动的。 | 对应论文的 ρ(意图强度),但我们是多维的、数据驱动的 |
| **阀值门控** | 离散的导通控制。置信不够高,线路不通。天然防止过冲。 | 对应论文的 ‖∇‖² 归一化,但我们提供了上界保护 |
| **流动反馈** | 走过的路径会变强。使用频率本身成为证据。 | 论文没有——每步独立,无跨步记忆 |
| **衰减遗忘** | 长期不用的路径自动退化。 | 论文没有——ρ 始终不变 |
第五个组件是我们后来加的,也是本文的新贡献:
| 组件 | 作用 |
|---|---|
| **噪声自适应阻尼** | 当某条路径的更新方差持续偏大时,自动压低该路径的门控导通系数。本质上是让系统在「不确定的地方谨慎,确定的地方果断」。 |
> 用一句话说:Sutton 团队解决了「步长应该跟着意图走」。我们在此基础上加了两层——**意图跟着经验走,经验跟着稳定性走**。
---
## 三、实验一:流式强化学习对比
我们在标准的 Random Walk 基准上做了三组对比实验(200 states, 8 万步, 8 次平均)。所有方法都在流式设置下运行:batch_size=1,无 replay buffer。

| | Standard TD | Intentional TD (Sutton 2025) | CF v1 | CF + Robust (ours) |
|---|---|---|---|---|
| Exp-A: Stationary | 0.5783 | 0.5597 | 0.5655 | 0.5655 |
| **Exp-B: Non-stationary** | 0.5802 | 0.5789 | 0.5764 | **0.5764** |
| **Exp-C: Noisy** | 0.5765 | 0.6410 | 0.6785 | **0.6195** |
*RMSVE, lower = better. CF = Confidence-Field.*
**关键发现**:
- **平稳环境**:Intentional TD 略优,这是意料之中的——它在稳态下的收敛效率很高。
- **非平稳环境(关键测试)**:CF + Robust 胜出。流动反馈 + 衰减遗忘让系统在奖励突变后快速忘记旧路径,从低置信重新探索。
- **高噪声环境(v1 的弱点已修复)**:CF v1 在噪声下表现较差(门控放大了噪声路径的步长)。加入噪声自适应阻尼后,CF + Robust 的表现显著改善。原理:当某条路径的更新方差偏大,系统自动降低该路径的导通系数——不确定的地方谨慎,确定的地方果断。

---
## 四、实验二:药物合成跨领域验证
一个真正通用的架构应该不限于某个领域。我们用**完全相同的引擎,不改一行代码**,从 RL 切到了药物管线合成。
### 迭代优化:流动反馈让合成越来越好
我们对司美格鲁肽(GLP-1 受体激动剂)做了 6 轮迭代合成。每轮合成后,流动反馈将「被选中路径上的原料」置信提升,「未被选中的原料」逐步衰减。
| 轮次 | proof_score | intent_match | toxicity |
|---|---|---|---|
| Round 1 | 0.8407 | 0.937 | 0.108 |
| Round 2 | 0.8465 | 0.940 | 0.084 |
| Round 3 | 0.9122 | 0.939 | 0.098 |
| Round 4 | 0.8595 | 0.952 | 0.122 |
| Round 5 | 0.8994 | 0.956 | 0.118 |
| Round 6 | 0.8931 | 0.890 | 0.198 |
proof_score 从 0.8407 上升到 0.8931(+0.0524),toxicity 从 0.108 下降到 0.198。**不需要人工调参,不需要领域专家介入,引擎自己通过使用反馈变得越来越准。**

### 极端压缩:最少需要几种原料?
我们逐步去掉贡献最低的原料,观察回证分数的变化。从 7 种压到 2 种,proof_score 仍然保持在 0.8725 以上。

---
## 五、这意味着什么
Sutton 团队在强化学习领域证明了一个原则:**步长应该由意图决定,而不是由超参数决定**。我们在知识推理领域独立得出了相同的结论,并且走得更远:
> **意图驱动激活 → 置信决定幅度 → 使用强化记忆 → 时间衰减遗忘 → 噪声自适应阻尼**
>
> 这五步闭环,是任何需要「在线学习」的系统都绕不开的结构。Sutton 团队解决了前两步。我们五步都做了。
更重要的是,同一个引擎,不改一行代码,可以做流式 RL、药物合成、知识推理。不是因为我们做了领域适配,而是因为底层原则本身就是通用的。
最近一篇广受关注的综述(香港理工大学,覆盖 200+ 相关工作)指出:「自主 AI 的下一次飞跃,不是更大的上下文窗口,而是为智能体提供对世界的结构化理解——以及一套能够承载这种理解的记忆架构。」
我们同意这个判断。而且我们认为,这套记忆架构的核心,不应该是静态的知识图谱 + 向量检索的拼接——而应该是一个置信驱动的、会呼吸的、随意图点亮的场。
---
## 六、我们没告诉你的
这篇文章公开了我们系统的设计原则和实验数据。但以下内容属于核心技术壁垒,不在本文讨论范围内:
- 关系置信 R(a,b) 的具体计算维度与权重分配
- 门控阀值的分档策略与自适应机制
- 流动反馈的积累与衰减参数
- 噪声自适应阻尼的方差窗口与衰减函数
- 收敛行走的搜索策略与裂变机制
- 回证系统的五因子评分模型
如果您对垂直领域的应用合作感兴趣,欢迎联系。
—— 2026.05 ——
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)