年前,Mamba 被 ICLR 拒稿的消息曾引起轩然大波。然而,Mamba作者在6月初又发布了 Mamba 2 架构,这次,Mamba-2 顺利地拿下 ICML。就连 Nvidia 都被吸引,都用它重新训练了GPT3模型。

在这里插入图片描述

Transformer vs Mamba vs Mamba2 : 比较和概述

Transformer、Mamba和Mamba2都是用于自然语言处理(NLP)任务的大型语言模型(LLM)架构。它们各有优缺点,适用于不同的应用场景。

Transformer

Transformer是目前最流行的LLM架构之一,于2017年提出。它是一种基于编码器-解码器架构的深度学习模型,使用注意力机制来学习输入和输出序列之间的依赖关系。Transformer在各种NLP任务中都取得了最先进的结果,但其计算复杂度较高,在处理长序列数据时效率较低。

Mamba

Mamba是一种基于状态空间模型(SSM)的LLM架构,于2023年提出。它旨在克服Transformer架构在处理长序列数据时的效率低下的问题。Mamba通过使用选择性状态空间和线性时间序列建模来实现更高的效率。

Mamba2

Mamba2是Mamba的改进版本,于2024年提出。它在Mamba的基础上进行了改进,进一步提高了性能和效率。Mamba2使用状态空间对偶性(SSD)框架来设计其核心层,该框架允许对注意力机制进行高效的并行化。

基于 Mamba 的语言模型实证研究

像 Mamba 这样的选择性状态空间模型(SSM)克服了 Transformers 的一些缺点,例如随序列长度变化的二次计算复杂性,以及键值缓存对推理时内存的巨大需求。此外,最近的研究表明,SSM 可以与 Transformers 的语言建模能力相媲美,甚至超过 Transformers,因此成为一种有吸引力的替代方案。不过,在受控环境下(如相同数据),迄今为止的研究仅介绍了将 SSM 与 Transformers 进行比较的小规模实验。为了了解这些架构在更大规模上的优缺点,我们直接比较了在相同数据集(多达 3.5T 标记)上训练的 8B 参数 Mamba、Mamba-2 和 Transformer 模型。我们还将这些模型与由 43% Mamba-2、7% attention 和 50% MLP 层组成的混合架构(Mamba-2-Hybrid)进行了比较。通过使用一组不同的任务,我们回答了 Mamba 模型能否在更大的训练预算下与 Transformers 匹配的问题。我们的结果表明,虽然纯 SSM 在许多任务上都能与 Transformers 相匹敌甚至更胜一筹,但在需要很强的复制或上下文学习能力(如 5 次 MMLU、电话簿)或长上下文推理的任务上,它们却落后于 Transformers。相比之下,我们发现 8B Mamba-2-Hybrid 在我们评估的所有 12 项标准任务中的表现都超过了 8B Transformer(平均超过 2.65 分),而且在推理时生成标记的速度预计可提高 8 倍。为了验证长语境能力,我们提供了更多实验,对 Mamba-2-Hybrid 和 Transformer 的变体进行评估,以支持 16K、32K 和 128K 序列。在另外 23 个长上下文任务中,混合模型的平均性能仍然接近或超过 Transformer。为了便于进一步研究,我们发布了检查点以及用于训练模型的代码,作为英伟达 Megatron-LM 项目的一部分。

比较

在 1.1T 词库上训练的 8B 参数模型的估值结果。纯 SSM 模型(Mamba
和 Mamba-2)在许多自然语言任务上都能与 Transformers 相媲美甚至更胜一筹,但在其他任务上
(例如,MMLU)

在这里插入图片描述
在这里插入图片描述

模型

在这里插入图片描述

论文

详细查看An Empirical Study of Mamba-based Language Models

感谢

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

GitHub 加速计划 / ma / mamba
8
2
下载
最近提交(Master分支:4 个月前 )
62db608d 4 个月前
323db269 Co-authored-by: Tri Dao <tridao@users.noreply.github.com> 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐