ACL 2023

  • 研究了LayerNorm在 Transformers 中对注意力的作用
  • LayerNorm为Transformer的Attention提供了两个重要的功能:
    • 投影,projection
      • LayerNorm 帮助 Attention 设计一个注意力查询,这样所有的Key都可以平等地访问
      • 通过将Key向量投影到同一个超平面上来实现这一点,从而使模型能够将查询对齐
      • ——>这样Attention 组件就无需自己学习如何执行此操作
    • scaling 缩放
      • LayerNorm 重新缩放输入,使得:
        • 每个Key都有可能获得“最高”关注
        • 没有Key可以在“un-selectable”区域结束
GitHub 加速计划 / tra / transformers
69
5
下载
huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
最近提交(Master分支:6 个月前 )
8eaae6be * Added Support for Custom Quantization * Update code * code reformatted * Updated Changes * Updated Changes --------- Co-authored-by: Mohamed Mekkouri <93391238+MekkCyber@users.noreply.github.com> 17 天前
07182b2e Flatten the expected slice tensor 17 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐