这篇论文的标题是《Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality》。其主要探讨了变压器(Transformers)和状态空间模型(SSMs)之间的密切关系。文章提出了一种新的理论框架,通过结构化半分离矩阵的各种分解,将SSMs与注意力的变体联系起来。这一框架允许作者设计出一种新的架构(Mamba-2),其核心层是Mamba的选择性SSM的改进版本,速度提高了2-8倍,同时在语言建模方面仍然具有竞争力。您可以在arXiv网站上阅读完整的论文。

摘要:
本文探讨了变压器(Transformers)和状态空间模型(SSMs)之间的关系,并开发了一个理论框架,将SSMs与注意力机制的各种变体联系起来。通过结构化半分离矩阵的不同分解,作者建立了这两种模型之间的紧密联系。基于此框架,作者设计了一种新的架构(Mamba-2),其核心层是Mamba的选择性SSM的改进版本,速度提高了2-8倍,同时在语言建模方面保持竞争力。
大纲:

  1. 引言:介绍变压器模型和状态空间模型在语言建模中的应用,以及两者之间的比较。
  2. 理论框架:详细描述结构化状态空间对偶(SSD)框架,包括SSMs和注意力机制之间的联系。
  3. 新架构Mamba-2:介绍Mamba-2的设计和实现,以及其相对于传统SSMs和Transformers的优势。
  4. 实验结果:展示Mamba-2在语言建模任务中的性能,并与现有模型进行比较。
  5. 结论和未来工作:总结研究发现,并提出未来研究方向。
    这篇论文为理解Transformers和SSMs之间的关系提供了新的视角,并为设计更高效的模型提供了新的方法。

在这里插入图片描述
在这里插入图片描述

GitHub 加速计划 / tra / transformers
130.24 K
25.88 K
下载
huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
最近提交(Master分支:2 个月前 )
6ba31a8a * bookmark * Bookmark * Bookmark * Actually implement * Pass in kwarg explicitly * Adjust for if we do or don't have labels * Bookmark fix for od * bookmark * Fin * closer * Negate accelerate grad accum div * Fixup not training long enough * Add in compute_loss to take full model output * Document * compute_loss -> compute_loss_fn * Add a test * Refactor * Refactor * Uncomment tests * Update tests/trainer/test_trainer.py Co-authored-by: Daniel Han <danielhanchen@gmail.com> --------- Co-authored-by: Daniel Han <danielhanchen@gmail.com> 11 小时前
7a06d07e * Support Llama 3.2 conversion (text models) Co-authored-by: Omar Sanseviero <osanseviero@gmail.com> * Fix rope factor * Update chat template Initialize from a well-known template. The guidance is that the changes should be applied to 3.1 models as well. * Remove import * Support Llama Guard 3 conversion * Tokenizer details * Fix eos added token in base models * Fix generation config for base models * Specify revision for known tokenizers * Style * Reuse chat templates for older models * Improve error when converting tokenizer < Llama 3 --------- Co-authored-by: Omar Sanseviero <osanseviero@gmail.com> 11 小时前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐