
论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention
transformers
huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
项目地址:https://gitcode.com/gh_mirrors/tra/transformers

·
ACL 2023
- 研究了LayerNorm在 Transformers 中对注意力的作用
- LayerNorm为Transformer的Attention提供了两个重要的功能:
- 投影,projection
- LayerNorm 帮助 Attention 设计一个注意力查询,这样所有的Key都可以平等地访问
- 通过将Key向量投影到同一个超平面上来实现这一点,从而使模型能够将查询对齐
- ——>这样Attention 组件就无需自己学习如何执行此操作
- scaling 缩放
- LayerNorm 重新缩放输入,使得:
- 每个Key都有可能获得“最高”关注
- 没有Key可以在“un-selectable”区域结束
- LayerNorm 重新缩放输入,使得:
- 投影,projection




huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
最近提交(Master分支:6 个月前 )
8eaae6be
* Added Support for Custom Quantization
* Update code
* code reformatted
* Updated Changes
* Updated Changes
---------
Co-authored-by: Mohamed Mekkouri <93391238+MekkCyber@users.noreply.github.com> 17 天前
07182b2e
Flatten the expected slice tensor 17 天前
更多推荐
所有评论(0)