DeepSeek又搞了个大动作,这次是真的狠
DeepSeek又搞了个大动作,这次是真的狠
DeepSeek 又发论文了,而且这次的研究质量高到让人怀疑人生。
如果你想学怎么做好大模型架构研究,或者想看什么叫严谨的消融实验,直接去读这篇论文就行了。因为他们做的实验设计精细到让之前所有架构相关的工作看起来都像是在玩具级别打转。不仅仅是对细节的关注,更重要的是他们想尽办法排除所有可能影响研究结果的混淆变量,还从机制层面证明这个新组件不只是有效,而且合理。
这就是一堂完整的研究大师课。
Transformer 终于有了第三块拼图
DeepSeek 这次提出的新组件叫 Engram,翻译过来就是条件记忆。它的定位很明确,成为 Transformer 架构里除了注意力和前馈网络之外的第三个核心组件。
听起来有点玄乎,但其实逻辑很简单。
在传统 Transformer 里,注意力机制负责连接词元之间的语义关系,比如一个词和另一个词的关联有多强。前馈网络则负责处理注意力传递过来的信号,把关系信号转化成有意义的特征,就像是存储在权重里的记忆,包含了训练时见过的模式。
这两个模块看起来已经很完美了,为什么还要加第三个?
关键在于,即使知识存在权重里,Transformer 在运行时还是得重新构建这些知识的表示。如果知识只涉及一个词元,那还好说。但如果知识分散在好几个词元里,比如常见短语、样板语法或者格式模式,模型就得花计算资源先把这个多词元短语的表示构建出来,然后才能在后续层里使用。
这个过程其实挺冗余的,因为每次遇到相同的多词元模式,模型都得重新做一遍特征构建。
举个例子,有句话说这张照片里有威尔士王妃戴安娜。在传统 Transformer 里,当模型读到威尔士这个词时,它不会立刻意识到威尔士王妃戴安娜指的是一个人。相反,它得通过多层注意力加前馈网络的转换,逐步把威尔士从一个国家名组合成查尔斯王子的第一任妻子戴安娜这个历史人物的完整表示。
但有了 Engram 之后,当模型读到威尔士时,它会立刻识别出这是一个常见短语,指的是一位著名历史人物,然后直接输出这个人的表示,跳过拼凑过程,把特征融入主信息流。
两种稀疏性的本质区别
DeepSeek 在这篇论文里提出了一个很重要的概念,条件计算和条件记忆是稀疏性的两个不同维度。
条件计算其实就是我们熟悉的专家混合 MOE。你有一大堆专家参数用于前馈网络,对于任何给定的词元,只激活一小部分专家。模型在需要的地方有选择地花费计算资源。
条件记忆就是 Engram 要做的事情。它不是激活专家,而是根据局部的多词元模式从一个大查找表里选择性地检索存储的表示。这个查找表可以很大,但成本很低而且时间恒定,因为它用的是哈希查找。
这两个东西看起来很像,因为它们都通过只触碰一部分参数来节省计算。但 DeepSeek 说它们之间有个重要区别,大到应该被当成两个不同的稀疏性维度来对待。
最关键的是,条件计算关注的是你运行哪些专家权重,而条件记忆关注的是你获取哪些存储信息。
专家权重帮助处理依赖上下文的计算,比如真正需要上下文感知处理的推理任务。而 Engram 帮助快速回忆那些基本静态的模式,否则这些模式会在各层之间被冗余地重建。
通过清晰地分离这两个概念,一种优化大模型的新方法出现了。你不用把所有稀疏参数预算都投入到专家里,然后祈祷它们能学到所有东西。你可以把一部分预算分配给专门设计用来处理语言中静态查找部分的记忆路径,让专家专心做思考的事情。
在这个框架下,Engram 不再显得格格不入,它开始看起来像一个本该一直存在的缺失组件。
Engram 到底怎么工作的
从技术层面看,Engram 的工作方式可以分成四步。
第一步,它观察词元流。当模型从左到右阅读时,在每个位置它都会看刚刚读过的局部尾部。在 Engram 的设置里,它会同时看最后两个和最后三个词元,不管它们是不是短语。
第二步,它把这个短语当作一个巨大记忆表里的地址。因为不可能为每个可能的短语存储一对一的条目,Engram 用哈希方法把短语映射到表里的几个槽位,然后取出这些槽位里的向量。如果这个多词元确实是常见短语或模式,这个向量就会包含丰富的表示。如果它没意义,就只是噪音。
第三步,模型会用该层的隐藏状态作为过滤器,这个隐藏状态包含了上下文信息。一个上下文化的门控机制会判断检索到的模式是否真的有意义。如果检索到的向量没用,或者虽然有意义但在当前上下文里不合理,门控就会把特征信号压得很弱。
第四步,特征被融入主流,Transformer 继续正常运行。但现在它已经有了可能很有用的多词元表示,不需要从头构建。
有意思的是,Engram 是端到端训练的。这意味着模型会根据某些多词元模式出现的频率自己学会这套机制。因为查找是确定性的,这些模式会被重复映射到表里的相同槽位。当这些槽位在训练时收到一致的梯度更新,存储在里面的向量就开始变得真正有意义。所以在推理时检索它们时,它们不是完全的噪音。
上下文化的门控机制也会学到一个简单但强大的技巧,当检索到的向量在上下文里一直有帮助时,门就会更常打开。当它是噪音或者和当前上下文冲突时,门就会学着关闭。
这一切都是模型隐式学到的,太神奇了。
另一个重要事实是,Engram 不是应用在每个 Transformer 层。相反,他们把 Engram 当作在特定层插入的东西,因为在哪里注入多词元特征很重要。
通过消融研究,他们发现在第 2 层放 Engram 效果最好,因为这时 Transformer 还在试图拼凑多词元的意义,Engram 可以在模型烧掉一堆层做同样事情之前把它卸载掉。但如果放得太早,上下文化的门控机制可能信号太弱,没什么用。比如在第 1 层,隐藏状态还没有太多信息,所以没有足够的全局上下文来决定检索到的记忆是否真的相关。
更有意思的是,他们发现在第 2 层和第 6 层同时放 Engram 效果更好。这个设计似乎平衡了早期干预的好处和更好的后期上下文化门控,因为第 6 层的隐藏状态会有更好的上下文信息。
用机制证明有效性
DeepSeek 的研究人员还做了更深入的工作来证明这不只是一个方便的解释,而是你真的能在网络内部看到正在发生的事情。
他们用了一个叫 logit lens 的探针来机制性地观察模型。在每一层,你取模型的隐藏状态,问如果我强制模型现在就预测下一个词元,它会预测什么,然后用 KL 散度把这一层的早期猜测和模型在最后一层的最终猜测比较。KL 越低表示这一层已经接近最终答案。
他们发现,Engram 模型在网络中更早地接近最终预测,尤其是在早期层。可以看到,更低的 KL 出现得更早,这符合 Engram 早期注入有用的局部模式的说法,所以主干不用花那么多层慢慢组装这些特征,给后面的层留出更多空间做更难的上下文依赖工作。
但研究人员还没完。他们想加倍验证这个解释,所以还做了一个表示级别的测试,用 CKA 相似度热图。它的工作方式是取 Engram 每一层的隐藏状态和基线每一层的隐藏状态,测量它们的表示几何有多相似。如果 Engram 的一层做的工作和基线同样深度的层差不多,你会期望热图上最亮的区域靠近对角线。
但他们观察到的是对角线外的向上偏移。因为对于很多层,Engram 的一层看起来更像基线的更深层,Engram 的第 5 层和基线的第 12 层左右对齐最好。这可以解释为 Engram 的浅层在功能上更接近基线的深层,就像 Engram 在不实际增加层数的情况下增加了模型的深度。
实际效果到底有多好
证明了有效性之后,实用性怎么样?
DeepSeek 做了两个方向的探索。在固定预算下,Engram 和 MOE 的最佳平衡是什么?如果预算不是问题,Engram 能扩展到多疯狂?
对于固定预算,他们在相同的计算浮点数下做了扫描。一开始,纯 MOE 模型是最低效的,损失最高。当你把更多资源分配给 Engram,减少路由专家的总数,同时保持每个词元的活跃计算相同时,他们发现最佳点是当大约 20% 到 25% 的稀疏容量从 MOE 转移到 Engram 时,对于 1100 亿参数的模型,损失改善了约 0.8%。
至于能扩展多疯狂,Engram 有个迷人的特点,就是让 Engram 表变大只会增加存储参数,不会增加每个词元的计算量。因为 Engram 只执行恒定的哈希查找和固定大小的融合,所以表有多大其实不重要。
通过扩展哈希表,他们看到损失随着表的增长持续改善,最多增加了 130 亿参数,这是他们在论文里测试的最大规模。趋势看起来是线性扩展的,同时改善了模型的数学编码能力。
不仅如此,当你从训练好的模型里拿掉 Engram 组件,可以看到性能下降有多严重,尤其是对于事实知识和算法思维相关的任务,下降幅度高达 56%。阅读理解这类任务保留了一些性能,这很清楚地表明 Engram 在存储知识领域实际上承担了很大的重量,而不只是一个小帮手。
更重要的是,推理时几乎没有性能损失。因为查找地址在 Engram 里是确定性的,一旦词元序列已知,查找的哈希索引就都是固定的。所以系统可以异步预取需要的特征。当第 1 层在做计算时,预取就可以开始了,这样当第 2 层需要 Engram 时,它基本上已经准备好了,可以通过 PCIe 传输过来。
在他们的基准测试中,一个 1000 亿参数的 Engram 表完全卸载到 CPU 并托管在 DRAM 里,吞吐量损失其实非常小,40 亿参数模型上只有 1.9% 的减速,80 亿参数模型上是 2.8% 的减速。
DeepSeek V4 要来了
有了这么疯狂的 Engram,下一步肯定是在大规模上看到它的实际表现,而 DeepSeek V4 应该会实现它。
从现在的趋势看,V4 会包含大量新的惊人洞察和想法。就像 DeepSeek V3.2 论文里,他们提前两个月发布了关键创新 DeepSeek 稀疏注意力的论文。所以如果一切顺利,我们很快就会看到 Engram 和 MHC 在真实规模上的表现。
这么多创新已经让人期待值拉满了,因为 V4 的模型发布肯定会是一次疯狂的技术展示。
而且说实话,看 DeepSeek 这种研究风格,你会发现他们不是在做表面文章。他们是真的在从底层重新思考 Transformer 该怎么设计,哪些部分可以优化,哪些假设可以挑战。
Engram 这个想法本身就很大胆,因为在 Transformer 内部加入一个全新的核心组件,风险很高。但他们不仅做了,还通过极其严谨的实验证明了它不只是有效,而且合理。
这才是真正的研究该有的样子。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)