从层状稠密 Transformer 到基于微模块动态图路由的认知架构

从丿从日，避体者

363人浏览 · 2026-03-13 22:39:19

从丿从日，避体者 · 2026-03-13 22:39:19 发布

一种面向结构自动多样性、内生短期记忆与按需计算的下一代大模型设想

摘要

当前主流大模型大多建立在层状堆叠的 Transformer 结构之上，其核心计算范式依赖全局注意力机制与稠密前馈网络。该范式在大规模预训练中取得了显著成功，但也暴露出三个逐渐加剧的问题：第一，计算路径固定，所有输入通常共享相似的层级流动方式，难以根据任务复杂度动态调整计算深度；第二，网络结构同构化严重，参数规模持续扩大，但结构层面的功能分化不足，导致模型在许多场景中呈现“参数增加但有效能力增益递减”的现象；第三，短期记忆主要依赖上下文拼接、KV Cache 或外部状态管理实现，尚未形成真正内生于模型结构中的工作记忆机制。现有研究已开始尝试稀疏激活和条件计算，例如 Mixture-of-Experts 通过稀疏路由仅激活少数专家，Adaptive Computation Time 则允许根据输入分配不同计算步数，Mamba 一类选择性状态空间模型则说明注意力并非唯一可行骨架；同时，Google 提出的 Pathways 也明确强调“并非所有输入都应激活所有参数”的架构方向。(arXiv)

本文在上述背景下提出一种概念性的新型大模型架构设想：将传统“按层顺序流动”的计算图，重构为“基于微模块节点的动态图路由认知网络”。在该架构中，网络的基本计算单元不再是固定层，而是粒度更细的功能微模块；输入进入系统后，不是被迫沿统一层级逐层传播，而是由路由机制根据输入特征、当前工作记忆状态和已有推理路径，动态决定应激活哪些模块、是否继续深入计算、以及是否终止输出。对于简单任务，信息可通过极短路径迅速到达输出；对于复杂任务，系统则自动导出更长、更深、更具分工性的推理路线。与此同时，本文进一步主张：短期记忆应以内生工作记忆节点的方式存在于模型内部，长期记忆则可外置为持久化状态存储，从而形成“短期内生、长期外置”的双层记忆体系。本文还讨论了专家塌缩、任务内强化与任务间再分配、输入诱导的潜在任务判别、可学习阈值式深度控制，以及动态图架构在训练稳定性、硬件适配和可扩展性方面的关键挑战。

关键词：大语言模型；动态图路由；微模块；结构自动多样性；内生短期记忆；条件计算；认知架构

1. 引言

近年来，大模型能力的提升很大程度上依赖于参数规模、训练数据规模和上下文长度的持续增长。然而，从系统演进的角度看，当前主流架构的提升路径更多体现为“规模扩张”，而非“结构进化”。在标准 Transformer 中，输入 token 一般需要依次穿过所有层；即使某些连接在当前样本上贡献极低，相应的矩阵运算、激活存储和中间状态传播依然必须发生。这种“固定路径、全量参与”的稠密计算机制，使得模型虽然能够通过大规模参数吸纳更多知识，但其内部并未真正形成与任务复杂度相匹配的动态组织能力。

已有研究已经部分揭示了这一问题。Switch Transformer 证明了可以通过稀疏专家路由，让每个 token 只激活少数参数子集，从而在保持大总参数量的同时控制单次计算成本；Adaptive Computation Time 进一步表明，不同输入所需的计算步数并不相同，模型可以学习“何时继续、何时停止”；Mamba 则显示，选择性状态空间模型可以在不依赖标准注意力与 MLP 堆叠的前提下，获得高效且强大的序列建模能力。(arXiv)

这些工作说明，大模型未来的发展方向，不应仅局限于在现有层状 Transformer 上继续堆叠参数，更应转向以下问题：是否可以构建一种具有更高结构异质性、可按输入自动分配计算预算、并且内建短期工作记忆的认知系统？本文试图围绕这一问题，提出一个相对系统的架构性设想。

2. 问题定义与核心动机

2.1 层状稠密架构的结构性局限

传统层状架构有三类根本局限。

其一，路径固定。输入通常必须经过预定义的层序列，无法根据问题复杂度在结构上自适应地缩短或拉长推理路径。

其二，模块同构。尽管不同层可能隐式学到不同特征，但整个网络仍然由高度同构的 block 重复堆叠而成，缺乏显式、稳定、可路由的功能分区。

其三，短期状态外部化倾向明显。当前很多系统的“短期记忆”本质上仍依赖 prompt 拼接、历史消息回填、KV Cache 或线程/进程级外部状态存储，而不是模型内部专门分化出的工作记忆机制。

上述问题共同导致一个现象：参数规模持续增大，但模型在复杂推理、多步骤任务组织、状态连续性维持和按需计算方面，并未同步获得结构级跃升。

2.2 从“规模扩张”转向“结构自动多样性”

本文认为，大模型下一阶段更关键的突破点，可能不是继续追求统一结构上的参数扩张，而是引入结构自动多样性。所谓结构自动多样性，并非简单指人工设计几个独立模块，而是指模型能够在训练和推理过程中，围绕输入需求自动形成不同功能区域，并动态决定信息在这些区域中的传播路径。

这意味着模型不再只有一条统一的、按层推进的计算通道，而是拥有一个由多个功能微模块构成的可重组计算图。不同输入将触发不同路径；简单任务可走短路径，复杂任务则会激活更深、更长的子图计算过程。

3. 架构设想：基于微模块节点的动态图认知网络

3.1 总体思想

本文提出一种“微模块—路由—工作记忆”三位一体的动态图架构。其基本思想如下：

将模型的基本计算单元从“层”改为“微模块”；
将模型的整体组织形态从“顺序层状”改为“稀疏动态图”；
将短期记忆从“外部上下文拼接”转为“内部工作记忆节点”；
将计算深度从“固定层数”转为“阈值控制的按需扩展”。

在该架构下，网络节点不是单个参数，也不是完整大层，而是具有明确功能倾向的微模块。例如，可存在偏重局部模式处理、长程状态维持、逻辑变换、语义压缩、规划校验等不同类型的微模块。输入到来后，首先生成一个潜在任务状态表示；随后，路由器基于该表示以及当前工作记忆状态，决定激活哪些模块、传播到何处、是否继续扩展。

3.2 为什么是“微模块”而不是“参数级全图”

从理论上看，让任意两个参数之间可直接通信似乎最灵活，但在工程上几乎不可实现。因为参数级自由连接会带来接近二次甚至更高规模的边空间，导致训练、存储和调度复杂度迅速爆炸。相比之下，微模块级节点能够在表达力与可训练性之间取得平衡：它比整层更灵活，比参数粒度更可控，也更有可能与现有硬件形成可实现的映射。

因此，本文主张：未来的结构演化方向不应是“参数级自由球状图”，而应是“模块级动态图神经计算图”。

3.3 计算过程

一个典型推理过程可表述为：

输入编码器产生初始表示；
路由控制器生成潜在任务状态与初始模块激活概率；
若任务较简单，则信息可能经少数微模块后直接到达输出；
若任务较复杂，则状态将被写入工作记忆，并继续传播到新的模块节点；
每经过一个或一组模块，系统都可进行一次“继续/终止”判定；
当置信度达到阈值或收益不足时，终止推理并输出结果。

由此，模型不再是“所有输入必经全部层”，而是“输入驱动的可变深度、可变路径、可变模块组合”。

4. 记忆体系：短期内生，长期外置

4.1 短期记忆不应长期依赖外挂

本文认为，长期记忆与短期记忆必须区分对待。长期记忆天然适合外置，因为它强调持久化、可检索、可跨会话保存；而短期记忆本质上是工作记忆，承担当前任务目标、近期约束、中间推理结果与局部变量的暂存作用。若短期记忆过度依赖外部知识库、线程状态或会话缓存，则会导致记忆与推理过程割裂，破坏思维流的连续性。

因此，本文主张：短期记忆应成为模型内部结构的一部分，以工作记忆节点或工作状态层的形式参与计算图，而不是仅作为外部补丁存在。

4.2 多用户隔离问题

短期记忆内生化并不意味着所有用户共享同一记忆池。真正合理的做法是：共享模型能力，但隔离运行态工作记忆。换言之，模型参数可以多用户共享，但每个用户、每个会话、每个任务都应拥有独立的临时工作状态实例。任务激活时，该实例被加载到当前推理图中；长时间不活跃时，可将其序列化到外部状态存储；再次进入相同用户、相同任务作用域时，再将其恢复为活跃态。

这一机制可概括为：

模型参数共享；
工作记忆实例隔离；
活跃态内生；
非活跃态外部挂起。

这种设计既避免不同用户间的短期状态串扰，也允许任务中断后继续恢复。

4.3 长期记忆的角色

长期记忆仍可由数据库、KV 存储、向量库或事件存储承担。其作用不是直接替代工作记忆，而是为工作记忆提供可召回的背景经验、历史文档、用户偏好与跨会话状态。于是，完整记忆体系形成如下分工：

短期记忆：内生、活跃、参与当前计算；
长期记忆：外置、持久、为当前计算提供补充。

5. 路由机制：由输入诱导潜在任务状态

5.1 不依赖显式任务标签

本文进一步主张，任务类型不应主要由外部人工标签给定，而应由输入本身的信息诱导产生。原因在于，显式任务名过于粗糙。比如“代码任务”可能既包括简单补全，也包括跨模块推理；“问答任务”可能既包含事实提取，也包含多步规划。真正决定计算路径的，不是任务名称，而是此次输入“需要怎样思考”。

因此，路由器不应只是做任务分类，而应从输入中推断一个潜在任务状态，该状态可以理解为一个连续的“计算需求向量”，表征当前输入在复杂度、记忆需求、规则性、推理深度、校验需求等方面的隐含特征。

5.2 路由函数

更合理的路由函数不是简单的：

$route = f(input)$

而是：

$route = f(input,\ memory_state,\ path_state,\ uncertainty)$

这意味着，路径决策不仅依赖初始输入，还依赖当前工作记忆、已走过的路径和当前不确定性。这样一来，模型可以在推理过程中中途改道，而不是只在入口做一次性分类。

5.3 简单任务与复杂任务的统一处理

在该框架下，简单任务可通过短路径快速结束；复杂任务则在图中触发更多微模块、更多状态写回和更多校验过程。由此，系统在结构层面获得“按输入难度分配计算预算”的能力，这与 Adaptive Computation Time 所体现的思想方向一致。(arXiv)

6. 训练机制：任务内强化、任务间再分配

6.1 专家塌缩问题的重新理解

在稀疏路由体系中，常见问题是少数模块长期被高频激活，而其他模块几乎得不到训练，最终导致结构塌缩。Switch Transformer 的成功也同时说明，稀疏专家虽然高效，但路由稳定性、通信开销与训练不平衡始终是核心挑战。(arXiv)

本文认为，防止塌缩不应被理解为“所有模块全局平均使用”。真正合理的目标应当是：

在同一类任务内部，允许更适合该任务的模块持续变强；
在新分布或新型任务到来时，允许此前较弱模块获得更多训练机会。

换言之，本文主张的不是“绝对均衡”，而是“条件化分工”。

6.2 任务内强化

对于某一持续出现的任务分布 A，如果训练过程中已经显示某些模块 $$x_1$$ 更适合承担该类任务，而另一些模块$$x_2$$表现较差，那么后续 A 类样本继续强化$$x_1$$ 是合理的。这意味着模型内部应允许形成局部不均衡，因为这正是专门化产生的结果。

6.3 任务间再分配

然而，当新的输入分布或新型任务模式 B 到来时，系统不能让既有优势模块持续垄断所有路径。此时应引入一种“受控压制与再探索”机制：对过去在 A 中高度占优的模块适度降低优先级，同时提高较少使用模块的出场概率，使其有机会围绕 B 类分布长出新的功能区域。

这里的关键不是显式任务标签，而是由输入诱导出的潜在任务状态发生了变化。也就是说，系统并非“知道这是任务 B”，而是“从输入统计与状态结构中感知到这类样本需要另一套计算路径”。

6.4 一个可行的训练过程

本文建议的训练过程可分为五步：

预热阶段：让所有微模块获得基础训练，避免过早分化；
软路由阶段：路由器输出连续激活分数，保留较高探索性；
稀疏化阶段：逐渐减少单次激活模块数，形成专业分工；
深度控制阶段：在推理中加入“继续/终止”门控，允许不同输入使用不同深度；
硬化阶段：将训练期的近似软路由，逐步逼近推理期的离散稀疏激活。

这种设计兼顾了探索与利用，避免一开始就让少数模块过快垄断所有样本。

7. 深度控制：可学习阈值与按需终止

7.1 为什么需要阈值式扩展

如果动态图系统缺少“何时停止”的机制，那么复杂图结构只会带来新的计算膨胀。为此，本文提出应在每一阶段或每一组模块后设置“继续/终止”判定门。只有当当前状态仍显示出明显的不确定性，或预期继续计算能带来足够收益时，才继续激活下一批模块。

7.2 阈值不是固定常数

阈值不应是人工写死的统一常数，而应作为可训练控制变量，至少在模块级或状态级上动态变化。例如，复杂样本、长程依赖样本和高冲突样本，应拥有更高的继续概率；而规则清晰、模式简单、置信度高的样本，则应更早终止。

7.3 简单任务一步到输出的可能性

在理想情况下，当输入足够简单时，模型可以通过极短路径直接到达输出。这样一来，系统不再要求所有样本都支付相同的计算代价，而是形成真正意义上的按需计算。这一点与 ACT 所体现的“输入决定计算步数”的思想高度一致。(arXiv)

8. 与现有研究方向的关系

本文提出的架构并非凭空出现，而是对现有多条研究方向进行统一扩展的结果。

MoE 说明了可以通过稀疏专家选择，仅激活少数参数子集；Switch Transformer 更进一步展示了简单路由也能带来显著的计算效率收益。(arXiv)

ACT 表明模型能够根据输入难度动态决定计算步数，这为“简单任务走短路、复杂任务走长路”提供了直接启发。(arXiv)

Mamba 则提供了另一个重要启示：大模型骨架并不一定非要是注意力加前馈网络的固定堆叠，选择性状态更新也可以成为强有力的序列建模方式。(arXiv)

Pathways 提出的方向更从系统层强调：不是所有任务都应激活全部参数，未来 AI 架构应能让不同输入仅动用其真正需要的那部分计算资源。(blog.google)

本文的贡献在于：将这些已有方向统一推进到“模块级动态图认知网络”的层面，并引入内生短期记忆与输入诱导潜在任务状态的概念，使其更接近一个具备结构自动多样性的完整认知系统。

9. 挑战与开放问题

尽管上述设想具有吸引力，但仍面临多项关键挑战。

第一，训练稳定性问题。动态图路由、稀疏激活和继续/终止门控会显著提高训练复杂度，如何避免路由抖动、塌缩和局部最优，是核心问题。

第二，硬件适配问题。GPU 和 TPU 更擅长规则的大矩阵运算，而细粒度动态图计算可能带来调度和访存开销，导致理论节省未必能转化为真实吞吐优势。Mamba 一类工作之所以强调 hardware-aware design，正是因为新骨架若不考虑底层实现，往往难以真正落地。(arXiv)

第三，模块粒度与图结构设计问题。节点太细会带来训练与路由灾难，节点太粗又会退化为传统层结构，如何找到“微模块”这一合适粒度仍需深入探索。

第四，工作记忆表示问题。短期记忆若要真正内生化，需要明确其在结构中的表示方式：是显式状态槽、专门记忆节点，还是与状态空间模型结合的内部寄存结构，这仍是开放问题。

第五，可解释性与可控性问题。动态图系统如果要应用于高可靠场景，就需要解释为何当前输入走了某条路径、为何在某一处停止，以及某些模块在特定分布下如何形成专长。

10. 结论

本文围绕“大模型下一阶段不应只靠参数堆叠，而应追求结构自动多样性”这一观点，提出了一种基于微模块节点的动态图认知架构设想。该设想的核心主张包括：

模型的基本计算单元应从顺序层演化为功能微模块；
整体计算图应从固定层流动演化为输入驱动的稀疏动态图路由；
短期记忆应以内生工作记忆的形式存在，长期记忆则外置持久化；
路由决策应由输入诱导的潜在任务状态驱动，而非主要依赖显式任务标签；
训练中应允许任务内强化与任务间再分配并存，以形成真正的条件化分工；
计算深度应由可学习阈值控制，实现简单任务短路径直达、复杂任务长路径推理。

本文并不认为未来模型会直接复制人脑结构，但认为“分工、路由、状态维持、按需激活”这些认知组织原则，很可能比单纯扩大统一稠密网络更接近下一代智能系统的演化方向。MoE、ACT、Mamba 与 Pathways 已分别从稀疏激活、动态步数、替代骨架与系统级按需计算等角度，展示了这一方向的可行性。(arXiv)

从这个意义上说，未来更值得期待的大模型，也许不再是“更深、更宽、更统一”的单体网络，而是“更可路由、更可分化、更具内生状态组织能力”的动态图认知系统。

注：对于三方论文的引用和认证，是通过AI模型解释的，可能出现一点的错误性。请理性判别。该文章只是表明我的理论方向。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【腾讯位置服务开发者征文大赛】基于AI Agent的多人汇合点智能规划：腾讯地图+Tool Calling实战

工具名功能对应腾讯位置服务API地址字符串 → 经纬度地址解析（Geocoder）给定经纬度、关键词 → 周边POI列表周边搜索（Place Search）多起点→多终点的距离/时间矩阵距离矩阵（Distance Matrix）Agent的决策逻辑：用户输入 → 解析出地址列表 → 调用批量转换 → 计算几何中心 → 调用获取候选汇合点 → 调用计算每个人到各候选点的成本 → 选择总成本最低的点作