transformer学习资源汇总
原文:https://mp.weixin.qq.com/s/qap5mePkP2rVbVSMsaBUMw
欢迎关注公zh: AI-Frontiers
苏剑林大师的博客
|
序号 |
发布日期 |
文章标题 |
链接 |
|
1 |
2021-03-08 |
Sinusoidal位置编码追根溯源 |
|
|
2 |
2021-03-23 |
博采众长的旋转式位置编码 |
https://spaces.ac.cn/archives/8265 |
|
3 |
2021-04-22 |
从Performer到线性Attention |
https://spaces.ac.cn/archives/8311 |
|
4 |
2021-05-10 |
二维位置的旋转式位置编码 |
https://spaces.ac.cn/archives/8397 |
|
5 |
2021-08-06 |
作为无限维的线性Attention |
https://spaces.ac.cn/archives/8566 |
|
6 |
2022-12-28 |
旋转位置编码的完备性分析 |
https://spaces.ac.cn/archives/9403 |
|
7 |
2023-01-12 |
长度外推性与局部注意力 |
https://spaces.ac.cn/archives/9431 |
|
8 |
2023-01-31 |
长度外推性与位置鲁棒性 |
https://spaces.ac.cn/archives/9444 |
|
9 |
2023-05-12 |
一种全局长度外推的新思路 |
https://spaces.ac.cn/archives/9513 |
|
10 |
2023-07-06 |
RoPE是一种β进制编码 |
https://spaces.ac.cn/archives/9675 |
|
11 |
2023-07-31 |
将β进制位置进行到底 |
https://spaces.ac.cn/archives/9700 |
|
12 |
2023-08-07 |
无限外推的ReRoPE? |
https://spaces.ac.cn/archives/9708 |
|
13 |
2023-08-14 |
逆用Leaky ReRoPE |
https://spaces.ac.cn/archives/9723 |
|
14 |
2023-08-24 |
当HWFA遇见ReRoPE |
https://spaces.ac.cn/archives/9731 |
|
15 |
2023-11-20 |
Key归一化助力长度外推 |
https://spaces.ac.cn/archives/9859 |
|
16 |
2024-01-26 |
"复盘"长度外推技术 |
https://spaces.ac.cn/archives/9948 |
|
17 |
2024-03-29 |
多模态位置编码的简单思考 |
https://spaces.ac.cn/archives/10040 |
|
18 |
2024-05-29 |
RoPE的底数选择原则 |
https://spaces.ac.cn/archives/10122 |
|
19 |
2025-04-18 |
第二类旋转位置编码 |
https://spaces.ac.cn/archives/10862 |
|
20 |
2025-05-04 |
MLA好在哪里?(上) |
https://spaces.ac.cn/archives/10907 |
|
21 |
2025-07-10 |
MLA好在哪里?(下) |
https://spaces.ac.cn/archives/11111 |
入门系列
|
序号 |
发布日期 |
文章标题 |
链接 |
备注 |
|
1 |
2017-06-12 |
Attention Is All You Need |
https://arxiv.org/abs/1706.03762 |
Transformer 的奠基之作,定义了整个领域的演进方向 |
|
2 |
2018-06-27 |
The Illustrated Transformer |
|
视觉化讲解的行业标准,极大地降低了直观理解的门槛 |
|
3 |
2023-01-27 |
The Transformer Family (Lilian Weng) |
|
由 OpenAI 首席研究员撰写,提供了严谨的架构演进综述与技术总结 |
|
4 |
2021-01-11 |
Breaking Down the Transformer |
https://aman.ai/primers/ai/transformers/ |
对架构组件进行模块化拆解,适合从工程角度深入理解 |
|
5 |
2020-12-24 |
How Transformers work in deep learning and NLP: an intuitive introduction |
https://theaisummer.com/transformer/ |
起源、核心架构(如自注意力机制)及其在深度学习领域的影响,是学习NLP基础架构的深度技术教程 |
|
6 |
2018-04-03 |
The Annotated Transformer |
|
提供 Transformer 论文的逐行代码实现与详细解析 |
|
7 |
2019-08-18 |
Transformers from scratch |
https://peterbloem.nl/blog/transformers |
详细讲解自注意力机制,附带完整的 PyTorch 代码,教你从零实现一个 Transformer |
|
8 |
2018-06-24 |
Attention? Attention! |
https://lilianweng.github.io/posts/2018-06-24-attention/ |
深入讲解各类注意力机制的原理与发展,适合想要深入理解注意力机制的学习者 |
github开源生态
|
仓库名称 |
网址 |
定位与特色 |
|
awesome-transformer-nlp |
全球最受欢迎的 Transformer 资源列表,更新频率高 |
|
|
awesome-transformer (ICTNLP) |
侧重于模型实现与 WMT 翻译基准测试的可复现性 |
|
|
awesome-transformers (abacaj) |
聚焦于模型许可协议与模型来源,适合企业级选型 |
|
|
Transformers-Recipe |
旨在提供一份“从入门到精通”的结构化学习路线图 |
|
|
Awesome-Visual-Transformer |
专注于视觉 Transformer (ViT) 及其在医学成像等领域的应用 |
|
|
Awesome-Transformer-Attention (视觉Transformer) |
https://github.com/cmhungsteve/Awesome-Transformer-Attention |
最全面的视觉 Transformer/Attention 论文列表,包含代码和相关网站 |
|
Awesome-Transformer-Visualization |
https://github.com/Ki-Seki/Awesome-Transformer-Visualization |
Transformer 可视化工具汇总,包括 Transformer Explainer、GemmaScope 等 |
|
BertViz |
https://github.com/jessevig/bertvizS |
Transformer 注意力可视化工具,支持 Head View、Model View、Neuron View 三重视图,可直观查看模型的注意力权重分布 |
官方与第三方高性能框架
|
框架/项目 |
网址 |
适用场景 |
|
Tensor2Tensor (Google) |
Transformer 的官方原始实现,基于 TensorFlow |
|
|
OpenNMT-py (Harvard) |
基于 PyTorch 的机器翻译工具包,因其高可扩展性广受好评 |
|
|
Fairseq (Meta AI) |
Meta 开发的高性能序列建模工具,RoBERTa 等模型即诞生于此 |
|
|
X-Transformers |
提供简洁且功能完整的全注意力实现,适合实验性研究 |
|
|
transformers |
https://github.com/huggingface/transformers |
提供最先进的预训练模型,用于处理 NLP、图像及音频任务。 |
课程学习
|
提供方 |
课程 |
核心技能点 |
|
DeepLearning.AI |
https://www.deeplearning.ai/courses/deep-learning-specialization/ |
RNN/LSTM/Transformer 的理论与实践 |
|
Stanford |
|
经典的深度学习自然语言处理(CS224N)课程主页,涵盖了Transformer、语言模型等前沿NLP技术与讲义。 |
|
Hugging Face |
https://github.com/huggingface/course |
Hugging Face 官方出品的免费开源课程,基于其生态教学,覆盖 Transformer 在文本、音频等多模态任务的应用,部分课程支持中文 |
|
亚马逊 |
https://github.com/d2l-ai/d2l-en |
亚马逊科学家团队维护的互动式深度学习书籍,涵盖 Transformer 理论推导与 PyTorch、TensorFlow、MXNet 多框架代码实现,被全球 500 余所名校用作教材。 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)