从层状稠密 Transformer 到基于微模块动态图路由的认知架构
一种面向结构自动多样性、内生短期记忆与按需计算的下一代大模型设想
摘要
当前主流大模型大多建立在层状堆叠的 Transformer 结构之上,其核心计算范式依赖全局注意力机制与稠密前馈网络。该范式在大规模预训练中取得了显著成功,但也暴露出三个逐渐加剧的问题:第一,计算路径固定,所有输入通常共享相似的层级流动方式,难以根据任务复杂度动态调整计算深度;第二,网络结构同构化严重,参数规模持续扩大,但结构层面的功能分化不足,导致模型在许多场景中呈现“参数增加但有效能力增益递减”的现象;第三,短期记忆主要依赖上下文拼接、KV Cache 或外部状态管理实现,尚未形成真正内生于模型结构中的工作记忆机制。现有研究已开始尝试稀疏激活和条件计算,例如 Mixture-of-Experts 通过稀疏路由仅激活少数专家,Adaptive Computation Time 则允许根据输入分配不同计算步数,Mamba 一类选择性状态空间模型则说明注意力并非唯一可行骨架;同时,Google 提出的 Pathways 也明确强调“并非所有输入都应激活所有参数”的架构方向。(arXiv)
本文在上述背景下提出一种概念性的新型大模型架构设想:将传统“按层顺序流动”的计算图,重构为“基于微模块节点的动态图路由认知网络”。在该架构中,网络的基本计算单元不再是固定层,而是粒度更细的功能微模块;输入进入系统后,不是被迫沿统一层级逐层传播,而是由路由机制根据输入特征、当前工作记忆状态和已有推理路径,动态决定应激活哪些模块、是否继续深入计算、以及是否终止输出。对于简单任务,信息可通过极短路径迅速到达输出;对于复杂任务,系统则自动导出更长、更深、更具分工性的推理路线。与此同时,本文进一步主张:短期记忆应以内生工作记忆节点的方式存在于模型内部,长期记忆则可外置为持久化状态存储,从而形成“短期内生、长期外置”的双层记忆体系。本文还讨论了专家塌缩、任务内强化与任务间再分配、输入诱导的潜在任务判别、可学习阈值式深度控制,以及动态图架构在训练稳定性、硬件适配和可扩展性方面的关键挑战。
关键词:大语言模型;动态图路由;微模块;结构自动多样性;内生短期记忆;条件计算;认知架构
1. 引言
近年来,大模型能力的提升很大程度上依赖于参数规模、训练数据规模和上下文长度的持续增长。然而,从系统演进的角度看,当前主流架构的提升路径更多体现为“规模扩张”,而非“结构进化”。在标准 Transformer 中,输入 token 一般需要依次穿过所有层;即使某些连接在当前样本上贡献极低,相应的矩阵运算、激活存储和中间状态传播依然必须发生。这种“固定路径、全量参与”的稠密计算机制,使得模型虽然能够通过大规模参数吸纳更多知识,但其内部并未真正形成与任务复杂度相匹配的动态组织能力。
已有研究已经部分揭示了这一问题。Switch Transformer 证明了可以通过稀疏专家路由,让每个 token 只激活少数参数子集,从而在保持大总参数量的同时控制单次计算成本;Adaptive Computation Time 进一步表明,不同输入所需的计算步数并不相同,模型可以学习“何时继续、何时停止”;Mamba 则显示,选择性状态空间模型可以在不依赖标准注意力与 MLP 堆叠的前提下,获得高效且强大的序列建模能力。(arXiv)
这些工作说明,大模型未来的发展方向,不应仅局限于在现有层状 Transformer 上继续堆叠参数,更应转向以下问题:是否可以构建一种具有更高结构异质性、可按输入自动分配计算预算、并且内建短期工作记忆的认知系统?本文试图围绕这一问题,提出一个相对系统的架构性设想。
2. 问题定义与核心动机
2.1 层状稠密架构的结构性局限
传统层状架构有三类根本局限。
其一,路径固定。输入通常必须经过预定义的层序列,无法根据问题复杂度在结构上自适应地缩短或拉长推理路径。
其二,模块同构。尽管不同层可能隐式学到不同特征,但整个网络仍然由高度同构的 block 重复堆叠而成,缺乏显式、稳定、可路由的功能分区。
其三,短期状态外部化倾向明显。当前很多系统的“短期记忆”本质上仍依赖 prompt 拼接、历史消息回填、KV Cache 或线程/进程级外部状态存储,而不是模型内部专门分化出的工作记忆机制。
上述问题共同导致一个现象:参数规模持续增大,但模型在复杂推理、多步骤任务组织、状态连续性维持和按需计算方面,并未同步获得结构级跃升。
2.2 从“规模扩张”转向“结构自动多样性”
本文认为,大模型下一阶段更关键的突破点,可能不是继续追求统一结构上的参数扩张,而是引入结构自动多样性。所谓结构自动多样性,并非简单指人工设计几个独立模块,而是指模型能够在训练和推理过程中,围绕输入需求自动形成不同功能区域,并动态决定信息在这些区域中的传播路径。
这意味着模型不再只有一条统一的、按层推进的计算通道,而是拥有一个由多个功能微模块构成的可重组计算图。不同输入将触发不同路径;简单任务可走短路径,复杂任务则会激活更深、更长的子图计算过程。
3. 架构设想:基于微模块节点的动态图认知网络
3.1 总体思想
本文提出一种“微模块—路由—工作记忆”三位一体的动态图架构。其基本思想如下:
-
将模型的基本计算单元从“层”改为“微模块”;
-
将模型的整体组织形态从“顺序层状”改为“稀疏动态图”;
-
将短期记忆从“外部上下文拼接”转为“内部工作记忆节点”;
-
将计算深度从“固定层数”转为“阈值控制的按需扩展”。
在该架构下,网络节点不是单个参数,也不是完整大层,而是具有明确功能倾向的微模块。例如,可存在偏重局部模式处理、长程状态维持、逻辑变换、语义压缩、规划校验等不同类型的微模块。输入到来后,首先生成一个潜在任务状态表示;随后,路由器基于该表示以及当前工作记忆状态,决定激活哪些模块、传播到何处、是否继续扩展。
3.2 为什么是“微模块”而不是“参数级全图”
从理论上看,让任意两个参数之间可直接通信似乎最灵活,但在工程上几乎不可实现。因为参数级自由连接会带来接近二次甚至更高规模的边空间,导致训练、存储和调度复杂度迅速爆炸。相比之下,微模块级节点能够在表达力与可训练性之间取得平衡:它比整层更灵活,比参数粒度更可控,也更有可能与现有硬件形成可实现的映射。
因此,本文主张:未来的结构演化方向不应是“参数级自由球状图”,而应是“模块级动态图神经计算图”。
3.3 计算过程
一个典型推理过程可表述为:
-
输入编码器产生初始表示;
-
路由控制器生成潜在任务状态与初始模块激活概率;
-
若任务较简单,则信息可能经少数微模块后直接到达输出;
-
若任务较复杂,则状态将被写入工作记忆,并继续传播到新的模块节点;
-
每经过一个或一组模块,系统都可进行一次“继续/终止”判定;
-
当置信度达到阈值或收益不足时,终止推理并输出结果。
由此,模型不再是“所有输入必经全部层”,而是“输入驱动的可变深度、可变路径、可变模块组合”。
4. 记忆体系:短期内生,长期外置
4.1 短期记忆不应长期依赖外挂
本文认为,长期记忆与短期记忆必须区分对待。长期记忆天然适合外置,因为它强调持久化、可检索、可跨会话保存;而短期记忆本质上是工作记忆,承担当前任务目标、近期约束、中间推理结果与局部变量的暂存作用。若短期记忆过度依赖外部知识库、线程状态或会话缓存,则会导致记忆与推理过程割裂,破坏思维流的连续性。
因此,本文主张:短期记忆应成为模型内部结构的一部分,以工作记忆节点或工作状态层的形式参与计算图,而不是仅作为外部补丁存在。
4.2 多用户隔离问题
短期记忆内生化并不意味着所有用户共享同一记忆池。真正合理的做法是:共享模型能力,但隔离运行态工作记忆。换言之,模型参数可以多用户共享,但每个用户、每个会话、每个任务都应拥有独立的临时工作状态实例。任务激活时,该实例被加载到当前推理图中;长时间不活跃时,可将其序列化到外部状态存储;再次进入相同用户、相同任务作用域时,再将其恢复为活跃态。
这一机制可概括为:
-
模型参数共享;
-
工作记忆实例隔离;
-
活跃态内生;
-
非活跃态外部挂起。
这种设计既避免不同用户间的短期状态串扰,也允许任务中断后继续恢复。
4.3 长期记忆的角色
长期记忆仍可由数据库、KV 存储、向量库或事件存储承担。其作用不是直接替代工作记忆,而是为工作记忆提供可召回的背景经验、历史文档、用户偏好与跨会话状态。于是,完整记忆体系形成如下分工:
-
短期记忆:内生、活跃、参与当前计算;
-
长期记忆:外置、持久、为当前计算提供补充。
5. 路由机制:由输入诱导潜在任务状态
5.1 不依赖显式任务标签
本文进一步主张,任务类型不应主要由外部人工标签给定,而应由输入本身的信息诱导产生。原因在于,显式任务名过于粗糙。比如“代码任务”可能既包括简单补全,也包括跨模块推理;“问答任务”可能既包含事实提取,也包含多步规划。真正决定计算路径的,不是任务名称,而是此次输入“需要怎样思考”。
因此,路由器不应只是做任务分类,而应从输入中推断一个潜在任务状态,该状态可以理解为一个连续的“计算需求向量”,表征当前输入在复杂度、记忆需求、规则性、推理深度、校验需求等方面的隐含特征。
5.2 路由函数
更合理的路由函数不是简单的:
而是:
这意味着,路径决策不仅依赖初始输入,还依赖当前工作记忆、已走过的路径和当前不确定性。这样一来,模型可以在推理过程中中途改道,而不是只在入口做一次性分类。
5.3 简单任务与复杂任务的统一处理
在该框架下,简单任务可通过短路径快速结束;复杂任务则在图中触发更多微模块、更多状态写回和更多校验过程。由此,系统在结构层面获得“按输入难度分配计算预算”的能力,这与 Adaptive Computation Time 所体现的思想方向一致。(arXiv)
6. 训练机制:任务内强化、任务间再分配
6.1 专家塌缩问题的重新理解
在稀疏路由体系中,常见问题是少数模块长期被高频激活,而其他模块几乎得不到训练,最终导致结构塌缩。Switch Transformer 的成功也同时说明,稀疏专家虽然高效,但路由稳定性、通信开销与训练不平衡始终是核心挑战。(arXiv)
本文认为,防止塌缩不应被理解为“所有模块全局平均使用”。真正合理的目标应当是:
-
在同一类任务内部,允许更适合该任务的模块持续变强;
-
在新分布或新型任务到来时,允许此前较弱模块获得更多训练机会。
换言之,本文主张的不是“绝对均衡”,而是“条件化分工”。
6.2 任务内强化
对于某一持续出现的任务分布 A,如果训练过程中已经显示某些模块 $$x_1$$ 更适合承担该类任务,而另一些模块$$x_2$$表现较差,那么后续 A 类样本继续强化$$x_1$$ 是合理的。这意味着模型内部应允许形成局部不均衡,因为这正是专门化产生的结果。
6.3 任务间再分配
然而,当新的输入分布或新型任务模式 B 到来时,系统不能让既有优势模块持续垄断所有路径。此时应引入一种“受控压制与再探索”机制:对过去在 A 中高度占优的模块适度降低优先级,同时提高较少使用模块的出场概率,使其有机会围绕 B 类分布长出新的功能区域。
这里的关键不是显式任务标签,而是由输入诱导出的潜在任务状态发生了变化。也就是说,系统并非“知道这是任务 B”,而是“从输入统计与状态结构中感知到这类样本需要另一套计算路径”。
6.4 一个可行的训练过程
本文建议的训练过程可分为五步:
-
预热阶段:让所有微模块获得基础训练,避免过早分化;
-
软路由阶段:路由器输出连续激活分数,保留较高探索性;
-
稀疏化阶段:逐渐减少单次激活模块数,形成专业分工;
-
深度控制阶段:在推理中加入“继续/终止”门控,允许不同输入使用不同深度;
-
硬化阶段:将训练期的近似软路由,逐步逼近推理期的离散稀疏激活。
这种设计兼顾了探索与利用,避免一开始就让少数模块过快垄断所有样本。
7. 深度控制:可学习阈值与按需终止
7.1 为什么需要阈值式扩展
如果动态图系统缺少“何时停止”的机制,那么复杂图结构只会带来新的计算膨胀。为此,本文提出应在每一阶段或每一组模块后设置“继续/终止”判定门。只有当当前状态仍显示出明显的不确定性,或预期继续计算能带来足够收益时,才继续激活下一批模块。
7.2 阈值不是固定常数
阈值不应是人工写死的统一常数,而应作为可训练控制变量,至少在模块级或状态级上动态变化。例如,复杂样本、长程依赖样本和高冲突样本,应拥有更高的继续概率;而规则清晰、模式简单、置信度高的样本,则应更早终止。
7.3 简单任务一步到输出的可能性
在理想情况下,当输入足够简单时,模型可以通过极短路径直接到达输出。这样一来,系统不再要求所有样本都支付相同的计算代价,而是形成真正意义上的按需计算。这一点与 ACT 所体现的“输入决定计算步数”的思想高度一致。(arXiv)
8. 与现有研究方向的关系
本文提出的架构并非凭空出现,而是对现有多条研究方向进行统一扩展的结果。
MoE 说明了可以通过稀疏专家选择,仅激活少数参数子集;Switch Transformer 更进一步展示了简单路由也能带来显著的计算效率收益。(arXiv)
ACT 表明模型能够根据输入难度动态决定计算步数,这为“简单任务走短路、复杂任务走长路”提供了直接启发。(arXiv)
Mamba 则提供了另一个重要启示:大模型骨架并不一定非要是注意力加前馈网络的固定堆叠,选择性状态更新也可以成为强有力的序列建模方式。(arXiv)
Pathways 提出的方向更从系统层强调:不是所有任务都应激活全部参数,未来 AI 架构应能让不同输入仅动用其真正需要的那部分计算资源。(blog.google)
本文的贡献在于:将这些已有方向统一推进到“模块级动态图认知网络”的层面,并引入内生短期记忆与输入诱导潜在任务状态的概念,使其更接近一个具备结构自动多样性的完整认知系统。
9. 挑战与开放问题
尽管上述设想具有吸引力,但仍面临多项关键挑战。
第一,训练稳定性问题。动态图路由、稀疏激活和继续/终止门控会显著提高训练复杂度,如何避免路由抖动、塌缩和局部最优,是核心问题。
第二,硬件适配问题。GPU 和 TPU 更擅长规则的大矩阵运算,而细粒度动态图计算可能带来调度和访存开销,导致理论节省未必能转化为真实吞吐优势。Mamba 一类工作之所以强调 hardware-aware design,正是因为新骨架若不考虑底层实现,往往难以真正落地。(arXiv)
第三,模块粒度与图结构设计问题。节点太细会带来训练与路由灾难,节点太粗又会退化为传统层结构,如何找到“微模块”这一合适粒度仍需深入探索。
第四,工作记忆表示问题。短期记忆若要真正内生化,需要明确其在结构中的表示方式:是显式状态槽、专门记忆节点,还是与状态空间模型结合的内部寄存结构,这仍是开放问题。
第五,可解释性与可控性问题。动态图系统如果要应用于高可靠场景,就需要解释为何当前输入走了某条路径、为何在某一处停止,以及某些模块在特定分布下如何形成专长。
10. 结论
本文围绕“大模型下一阶段不应只靠参数堆叠,而应追求结构自动多样性”这一观点,提出了一种基于微模块节点的动态图认知架构设想。该设想的核心主张包括:
-
模型的基本计算单元应从顺序层演化为功能微模块;
-
整体计算图应从固定层流动演化为输入驱动的稀疏动态图路由;
-
短期记忆应以内生工作记忆的形式存在,长期记忆则外置持久化;
-
路由决策应由输入诱导的潜在任务状态驱动,而非主要依赖显式任务标签;
-
训练中应允许任务内强化与任务间再分配并存,以形成真正的条件化分工;
-
计算深度应由可学习阈值控制,实现简单任务短路径直达、复杂任务长路径推理。
本文并不认为未来模型会直接复制人脑结构,但认为“分工、路由、状态维持、按需激活”这些认知组织原则,很可能比单纯扩大统一稠密网络更接近下一代智能系统的演化方向。MoE、ACT、Mamba 与 Pathways 已分别从稀疏激活、动态步数、替代骨架与系统级按需计算等角度,展示了这一方向的可行性。(arXiv)
从这个意义上说,未来更值得期待的大模型,也许不再是“更深、更宽、更统一”的单体网络,而是“更可路由、更可分化、更具内生状态组织能力”的动态图认知系统。
注:对于三方论文的引用和认证,是通过AI模型解释的,可能出现一点的错误性。请理性判别。该文章只是表明我的理论方向。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)