大模型如何实现无损「终身学习」？解析 Share 共享 LoRA 子空间机制

m0_63466673

11人浏览 · 2026-03-27 12:14:12

m0_63466673 · 2026-03-27 12:14:12 发布

论文: Shared LoRA Subspaces for almost Strict Continual Learning (arXiv: 2602.06043)

机构: 约翰霍普金斯大学 (Johns Hopkins University)

聊到大模型的「持续学习」（Continual Learning），大家最头疼的工程问题就是「灾难性遗忘」——模型学了新知识，往往就把旧技能忘得一干二净。

目前的常规解法代价都很高：全量微调太贵；数据回放（Data Replay）有存储和隐私合规的风险；如果是给每个任务单独训一个 LoRA，随着任务增多，存储成本和推理时切换适配器的开销会呈线性爆炸。

约翰霍普金斯大学最近提出了一种叫做 Share 的新思路。他们没有走“不断叠加新参数”的老路，而是通过寻找一个共享的低秩子空间，用恒定的参数量实现了几乎严格的持续学习。

核心观察：几百个 LoRA 背后，其实都是同一个“底座”

大家都知道 LoRA 的核心原理：冻结原始权重，通过外挂两个低秩矩阵和来学一个增量。但传统 LoRA 的问题是，任务有一套，任务有一套，互不相通。

Share 团队做了一件很有意思的苦力活：他们拆解分析了超过 1100 个训练好的模型（包括 500 个 Mistral-7B LoRA、500 个 ViT 和 50 个 LLaMA-8B）。

对这些不同任务的适配器权重做谱分解后，他们发现了一个规律：尽管任务千差万别，但学到的 LoRA 权重能量，绝大部分都集中在非常相似的低维子空间里。

这意味着我们根本不需要为每个任务单独开辟全新的矩阵。只要找准这个“公共底座”，新任务完全可以在这套现成的体系里微调方向。

Share 的解法：用共享矩阵 + 稀疏系数重构更新

基于上面的观察，Share 把权重更新公式改写成了这样：

这里的结构非常清晰：

和：这是所有任务共享的主因子（可以理解为刚才提到的“公共底座”或者基础子空间）。
：这是针对第个任务专门设置的稀疏系数向量。

这样一来，每当有新任务接入，模型不需要新增庞大的矩阵，只需要学一个轻量级的向量，以及对主因子做微小的方向修正即可。

怎么让这套机制转起来？

为了保证在学新知识时不会把公共空间搞崩，Share 设计了一个三阶段的运作流：

冷启动（初始化）：直接拿现成的 LoRA 权重跑 SVD 分解，把核心的低秩结构提炼出来，作为共享因子和的初始值。
新任务适配：来新任务时，主因子基本冻结，模型主要去学一个临时的任务因子。为了减少对其他任务的干扰，这里用了一个类似 TF-IDF 逻辑的策略：只挑选对当前任务最重要的个维度去跑梯度更新（稀疏更新）。
融合微调：最后，把新任务学到的临时因子安全地融合进公共的和里。这个融合操作一举两得，既让新任务蹭到了老知识（前向迁移），又用新数据打磨了公共空间的表达能力（后向迁移）。

惊人的工程收益：不只是为了降遗忘率

这套机制最吸引人的地方不在于花哨的数学，而在于它真正解决了持续部署的痛点。这种设计实现了真正的参数不随任务增长和无需保留旧数据（No Replay）。

在 CIFAR-100 的 10 任务序列压测中，对比为每个任务存一个独立 LoRA 适配器的传统做法：

准确率更高：独立 LoRA 是 79.46%，而 Share 提到了 82.42%。
遗忘率极低：几乎测不到灾难性遗忘。

更夸张的是效率层面的数据对比：

参数量骤降：从百万级（独立 LoRA）降到了万级（降低约 100 倍）。
内存/显存极度克制：一个 Share 模型可以替代成百上千个 LoRA 适配器，节省了 281 倍的空间。
零切换延迟：在推理阶段，由于所有任务共用一套主子空间，只需一次前向传播就能搞定，不用像以前那样根据 prompt 频繁在内存里插拔不同的 LoRA 权重。

这套方法也不挑模态，在 GLUE（NLP）、ImageNet、人体姿态估计，甚至是 Stable Diffusion 的微调上，都复现了一致的提升。

总结与思考

以前我们做持续学习，总觉得“学得越多，模型就该变得越大”，或者必须留着旧数据当错题本。Share 证明了这可能是一个误区。

通过挖掘多任务之间的共享低维流形，Share 把持续学习变成了一个“在成熟的索引库里贴新标签”的过程。对于亟需在端侧（手机、IoT设备）部署个性化大模型，或者要靠一个底座模型伺候数百个垂直业务场景的企业来说，这种不涨体积、不吃显存、且保护隐私（不存旧数据）的持续学习范式，非常值得一试。

当然，Share 目前主要是在 7B-8B 规模、10~20 个任务序列的尺度上做的验证。未来把它丢进千亿参数模型，让它扛住几百个任务的持续轰炸，其收敛稳定性和子空间容量的极限在哪里，还有待社区的进一步挖掘。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Research in Brain-inspired Computing [7]-带关节小人(3个)推箱的类意识报告

本研究基于box2d物理引擎构建多智能体协作推箱子系统，通过9732维参数模型训练实现"类意识"涌现。5局实验显示，3个小人通过神经符号编码（如A0[..@@@@@..

AtomGit开源社区

论文AI率太高怎么办？2026年AIGC检测与降AI率完整指南

AIGC 是 "AI Generated Content" 的缩写，即"人工智能生成内容"。AIGC 检测工具的作用是判断一段文本是由人类撰写的，还是由 AI 模型生成的。需要强调的是，AIGC 检测并不是判断"你是否使用了 AI 工具"（因为使用 AI 辅助查资料、整理思路等行为本身并不违规），而是检测论文文本本身是否呈现出 AI 生成的特征。通俗来说，它检测的是最终文本的"AI味"有多重。

AtomGit开源社区

【信息科学与工程学】【通信工程】第四十八篇转控分离vBNC/vBRAS架构概述02

编号类型函数类型函数的数学方程式建模 / 子函数的数学方程式列表参数类型参数名称数学表达式/物理模型/计算机模型/通信模型/关联描述典型值/范围 (管控目标)单位核心关联参数依赖关系设计/软件开发/硬件制造/应用要求测试/验证方法关联学科/领域CP-CORE-13CP虚拟机-控制平面路由表RIB管理。向路由信息库添加路由条目，删除，查询。路由管理函数路由信息库增删改查维护全局路由信息库，存储从各