论文: Shared LoRA Subspaces for almost Strict Continual Learning (arXiv: 2602.06043)

机构: 约翰霍普金斯大学 (Johns Hopkins University)

聊到大模型的「持续学习」(Continual Learning),大家最头疼的工程问题就是「灾难性遗忘」——模型学了新知识,往往就把旧技能忘得一干二净。

目前的常规解法代价都很高:全量微调太贵;数据回放(Data Replay)有存储和隐私合规的风险;如果是给每个任务单独训一个 LoRA,随着任务增多,存储成本和推理时切换适配器的开销会呈线性爆炸。

约翰霍普金斯大学最近提出了一种叫做 Share 的新思路。他们没有走“不断叠加新参数”的老路,而是通过寻找一个共享的低秩子空间,用恒定的参数量实现了几乎严格的持续学习。

核心观察:几百个 LoRA 背后,其实都是同一个“底座”

大家都知道 LoRA 的核心原理:冻结原始权重 ,通过外挂两个低秩矩阵 来学一个增量 。但传统 LoRA 的问题是,任务 有一套 ,任务 有一套 ,互不相通。

Share 团队做了一件很有意思的苦力活:他们拆解分析了超过 1100 个训练好的模型(包括 500 个 Mistral-7B LoRA、500 个 ViT 和 50 个 LLaMA-8B)。

对这些不同任务的适配器权重做谱分解后,他们发现了一个规律:尽管任务千差万别,但学到的 LoRA 权重能量,绝大部分都集中在非常相似的低维子空间里。

这意味着我们根本不需要为每个任务单独开辟全新的矩阵。只要找准这个“公共底座”,新任务完全可以在这套现成的体系里微调方向。

Share 的解法:用共享矩阵 + 稀疏系数重构更新

基于上面的观察,Share 把权重更新公式改写成了这样:

这里的结构非常清晰:

  • :这是所有任务共享的主因子(可以理解为刚才提到的“公共底座”或者基础子空间)。
  • :这是针对第 个任务专门设置的稀疏系数向量。

这样一来,每当有新任务接入,模型不需要新增庞大的矩阵,只需要学一个轻量级的 向量,以及对主因子做微小的方向修正即可。

怎么让这套机制转起来?

为了保证在学新知识时不会把公共空间搞崩,Share 设计了一个三阶段的运作流:

  1. 冷启动(初始化):直接拿现成的 LoRA 权重跑 SVD 分解,把核心的低秩结构提炼出来,作为共享因子 的初始值。
  2. 新任务适配:来新任务时,主因子基本冻结,模型主要去学一个临时的任务因子。为了减少对其他任务的干扰,这里用了一个类似 TF-IDF 逻辑的策略:只挑选对当前任务最重要的 个维度去跑梯度更新(稀疏更新)。
  3. 融合微调:最后,把新任务学到的临时因子安全地融合进公共的 里。这个融合操作一举两得,既让新任务蹭到了老知识(前向迁移),又用新数据打磨了公共空间的表达能力(后向迁移)。

惊人的工程收益:不只是为了降遗忘率

这套机制最吸引人的地方不在于花哨的数学,而在于它真正解决了持续部署的痛点。这种设计实现了真正的参数不随任务增长无需保留旧数据(No Replay)

在 CIFAR-100 的 10 任务序列压测中,对比为每个任务存一个独立 LoRA 适配器的传统做法:

  • 准确率更高:独立 LoRA 是 79.46%,而 Share 提到了 82.42%。
  • 遗忘率极低:几乎测不到灾难性遗忘。

更夸张的是效率层面的数据对比:

  • 参数量骤降:从百万级(独立 LoRA)降到了万级(降低约 100 倍)。
  • 内存/显存极度克制:一个 Share 模型可以替代成百上千个 LoRA 适配器,节省了 281 倍的空间。
  • 零切换延迟:在推理阶段,由于所有任务共用一套主子空间,只需一次前向传播就能搞定,不用像以前那样根据 prompt 频繁在内存里插拔不同的 LoRA 权重。

这套方法也不挑模态,在 GLUE(NLP)、ImageNet、人体姿态估计,甚至是 Stable Diffusion 的微调上,都复现了一致的提升。

总结与思考

以前我们做持续学习,总觉得“学得越多,模型就该变得越大”,或者必须留着旧数据当错题本。Share 证明了这可能是一个误区。

通过挖掘多任务之间的共享低维流形,Share 把持续学习变成了一个“在成熟的索引库里贴新标签”的过程。对于亟需在端侧(手机、IoT设备)部署个性化大模型,或者要靠一个底座模型伺候数百个垂直业务场景的企业来说,这种不涨体积、不吃显存、且保护隐私(不存旧数据)的持续学习范式,非常值得一试。

当然,Share 目前主要是在 7B-8B 规模、10~20 个任务序列的尺度上做的验证。未来把它丢进千亿参数模型,让它扛住几百个任务的持续轰炸,其收敛稳定性和子空间容量的极限在哪里,还有待社区的进一步挖掘。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐