黑曼巴精神不死！Mamba 2 出世，性能狂飙8倍

mamba

项目地址：https://gitcode.com/gh_mirrors/ma/mamba

免费下载资源

DisonTangor

1739人浏览 · 2024-06-24 16:56:37

DisonTangor · 2024-06-24 16:56:37 发布

年前，Mamba 被 ICLR 拒稿的消息曾引起轩然大波。然而，Mamba作者在6月初又发布了 Mamba 2 架构，这次，Mamba-2 顺利地拿下 ICML。就连 Nvidia 都被吸引，都用它重新训练了GPT3模型。

在这里插入图片描述

Transformer vs Mamba vs Mamba2 : 比较和概述

Transformer、Mamba和Mamba2都是用于自然语言处理（NLP）任务的大型语言模型（LLM）架构。它们各有优缺点，适用于不同的应用场景。

Transformer

Transformer是目前最流行的LLM架构之一，于2017年提出。它是一种基于编码器-解码器架构的深度学习模型，使用注意力机制来学习输入和输出序列之间的依赖关系。Transformer在各种NLP任务中都取得了最先进的结果，但其计算复杂度较高，在处理长序列数据时效率较低。

Mamba

Mamba是一种基于状态空间模型（SSM）的LLM架构，于2023年提出。它旨在克服Transformer架构在处理长序列数据时的效率低下的问题。Mamba通过使用选择性状态空间和线性时间序列建模来实现更高的效率。

Mamba2

Mamba2是Mamba的改进版本，于2024年提出。它在Mamba的基础上进行了改进，进一步提高了性能和效率。Mamba2使用状态空间对偶性（SSD）框架来设计其核心层，该框架允许对注意力机制进行高效的并行化。

基于 Mamba 的语言模型实证研究

像 Mamba 这样的选择性状态空间模型（SSM）克服了 Transformers 的一些缺点，例如随序列长度变化的二次计算复杂性，以及键值缓存对推理时内存的巨大需求。此外，最近的研究表明，SSM 可以与 Transformers 的语言建模能力相媲美，甚至超过 Transformers，因此成为一种有吸引力的替代方案。不过，在受控环境下（如相同数据），迄今为止的研究仅介绍了将 SSM 与 Transformers 进行比较的小规模实验。为了了解这些架构在更大规模上的优缺点，我们直接比较了在相同数据集（多达 3.5T 标记）上训练的 8B 参数 Mamba、Mamba-2 和 Transformer 模型。我们还将这些模型与由 43% Mamba-2、7% attention 和 50% MLP 层组成的混合架构（Mamba-2-Hybrid）进行了比较。通过使用一组不同的任务，我们回答了 Mamba 模型能否在更大的训练预算下与 Transformers 匹配的问题。我们的结果表明，虽然纯 SSM 在许多任务上都能与 Transformers 相匹敌甚至更胜一筹，但在需要很强的复制或上下文学习能力（如 5 次 MMLU、电话簿）或长上下文推理的任务上，它们却落后于 Transformers。相比之下，我们发现 8B Mamba-2-Hybrid 在我们评估的所有 12 项标准任务中的表现都超过了 8B Transformer（平均超过 2.65 分），而且在推理时生成标记的速度预计可提高 8 倍。为了验证长语境能力，我们提供了更多实验，对 Mamba-2-Hybrid 和 Transformer 的变体进行评估，以支持 16K、32K 和 128K 序列。在另外 23 个长上下文任务中，混合模型的平均性能仍然接近或超过 Transformer。为了便于进一步研究，我们发布了检查点以及用于训练模型的代码，作为英伟达 Megatron-LM 项目的一部分。

比较

在 1.1T 词库上训练的 8B 参数模型的估值结果。纯 SSM 模型（Mamba
和 Mamba-2）在许多自然语言任务上都能与 Transformers 相媲美甚至更胜一筹，但在其他任务上
(例如，MMLU）

在这里插入图片描述

模型

在这里插入图片描述

论文

详细查看An Empirical Study of Mamba-based Language Models

感谢

感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

GitHub 加速计划 / ma / mamba

下载

最近提交(Master分支：4 个月前 )

62db608d 4 个月前

323db269 Co-authored-by: Tri Dao <tridao@users.noreply.github.com> 4 个月前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m