论文略读：Onthe Expressivity Role of LayerNorm in Transformers’ Attention

transformers

huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。

项目地址：https://gitcode.com/gh_mirrors/tra/transformers

免费下载资源

UQI-LIUWJ

247人浏览 · 2024-06-10 15:09:05

UQI-LIUWJ · 2024-06-10 15:09:05 发布

ACL 2023

研究了LayerNorm在 Transformers 中对注意力的作用
LayerNorm为Transformer的Attention提供了两个重要的功能：
- 投影，projection
  - LayerNorm 帮助 Attention 设计一个注意力查询，这样所有的Key都可以平等地访问
  - 通过将Key向量投影到同一个超平面上来实现这一点，从而使模型能够将查询对齐
  - ——>这样Attention 组件就无需自己学习如何执行此操作
- scaling 缩放
  - LayerNorm 重新缩放输入，使得：
    - 每个Key都有可能获得“最高”关注
    - 没有Key可以在“un-selectable”区域结束

GitHub 加速计划 / tra / transformers

下载

最近提交(Master分支：6 个月前 )

8eaae6be * Added Support for Custom Quantization * Update code * code reformatted * Updated Changes * Updated Changes --------- Co-authored-by: Mohamed Mekkouri <93391238+MekkCyber@users.noreply.github.com> 22 天前

07182b2e Flatten the expected slice tensor 22 天前