Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Du

transformers

huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。

项目地址：https://gitcode.com/gh_mirrors/tra/transformers

免费下载资源

东方金木

718人浏览 · 2024-06-04 17:41:26

东方金木 · 2024-06-04 17:41:26 发布

这篇论文的标题是《Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality》。其主要探讨了变压器（Transformers）和状态空间模型（SSMs）之间的密切关系。文章提出了一种新的理论框架，通过结构化半分离矩阵的各种分解，将SSMs与注意力的变体联系起来。这一框架允许作者设计出一种新的架构（Mamba-2），其核心层是Mamba的选择性SSM的改进版本，速度提高了2-8倍，同时在语言建模方面仍然具有竞争力。您可以在arXiv网站上阅读完整的论文。

摘要：
本文探讨了变压器（Transformers）和状态空间模型（SSMs）之间的关系，并开发了一个理论框架，将SSMs与注意力机制的各种变体联系起来。通过结构化半分离矩阵的不同分解，作者建立了这两种模型之间的紧密联系。基于此框架，作者设计了一种新的架构（Mamba-2），其核心层是Mamba的选择性SSM的改进版本，速度提高了2-8倍，同时在语言建模方面保持竞争力。
大纲：

引言：介绍变压器模型和状态空间模型在语言建模中的应用，以及两者之间的比较。
理论框架：详细描述结构化状态空间对偶（SSD）框架，包括SSMs和注意力机制之间的联系。
新架构Mamba-2：介绍Mamba-2的设计和实现，以及其相对于传统SSMs和Transformers的优势。
实验结果：展示Mamba-2在语言建模任务中的性能，并与现有模型进行比较。
结论和未来工作：总结研究发现，并提出未来研究方向。
这篇论文为理解Transformers和SSMs之间的关系提供了新的视角，并为设计更高效的模型提供了新的方法。

在这里插入图片描述

GitHub 加速计划 / tra / transformers

130.24 K

25.88 K

下载

最近提交(Master分支：2 个月前 )

6ba31a8a * bookmark * Bookmark * Bookmark * Actually implement * Pass in kwarg explicitly * Adjust for if we do or don't have labels * Bookmark fix for od * bookmark * Fin * closer * Negate accelerate grad accum div * Fixup not training long enough * Add in compute_loss to take full model output * Document * compute_loss -> compute_loss_fn * Add a test * Refactor * Refactor * Uncomment tests * Update tests/trainer/test_trainer.py Co-authored-by: Daniel Han <danielhanchen@gmail.com> --------- Co-authored-by: Daniel Han <danielhanchen@gmail.com> 11 小时前

7a06d07e * Support Llama 3.2 conversion (text models) Co-authored-by: Omar Sanseviero <osanseviero@gmail.com> * Fix rope factor * Update chat template Initialize from a well-known template. The guidance is that the changes should be applied to 3.1 models as well. * Remove import * Support Llama Guard 3 conversion * Tokenizer details * Fix eos added token in base models * Fix generation config for base models * Specify revision for known tokenizers * Style * Reuse chat templates for older models * Improve error when converting tokenizer < Llama 3 --------- Co-authored-by: Omar Sanseviero <osanseviero@gmail.com> 11 小时前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m