极客大神构建了LLM架构画廊，Karpathy点赞

SuaniCommunity

376人浏览 · 2026-03-18 10:54:58

SuaniCommunity · 2026-03-18 10:54:58 发布

人工智能的高速公路上，LLM加速狂奔，想学习或了解LLM发动机的开发者有福了。

极客大神Sebastian Raschka构建了惊艳开发者的LLM Architecture Gallery（大语言模型架构画廊），将历年来复杂的模型结构化繁为简，引发了技术圈的热烈讨论。

AI大神Karpathy都点赞了。Sebastian Raschka同时将元数据也在GitHub上开源。

漫步架构画廊

LLM架构画廊项目在美国知名科技社区Hacker News上引发了热烈讨论。

画廊高度视觉化且互动性极强。

网页集中展示了从2019年的基准模型开始，一直到2026年春季各大科技公司发布的最新开放权重模型的架构图。

开发者只需点击屏幕上的模型名称，就能看到一张高清晰度的架构面板。

面板上详细标注了词嵌入、位置编码、归一化方法、前馈神经网络、注意力头数量、隐藏层维度以及上下文长度等核心参数。

网站为每一个入选的模型配备了一张紧凑的数据表，包含模型规模、发布日期、解码器类型以及注意力机制种类。网页还内置了对前沿概念的简明解释，涵盖GQA（分组查询注意力）、MLA（多头潜在注意力）、SWA（滑动窗口）、Gated DeltaNet（门控Delta网络）等。

开发者不再需要在浩如烟海的学术论文中来回跳转，只需按图索骥，就能迅速摸清不同模型之间的血脉传承与设计差异。

所有源数据全部托管在GitHub上，开发者可以随时提交反馈和更新建议。

洞悉演进本质

社区资深开发者在浏览完架构画廊后发出感慨，纵观过去7年的人工智能发展史，当今最顶尖的开放权重模型在宏观结构上依然有着早期架构的影子。

大家都在不断地堆叠注意力层和前馈神经网络层。能力的跨越，主要归功于算力规模的扩大以及强化学习等全新训练方法的引入。

在微观架构的设计上，各家实验室展现出了百花齐放的创新能力，核心诉求都指向了节省内存和提升计算效率。

比如Llama 4采用了与DeepSeek V3高度相似的混合专家架构，不同之处在于Llama 4坚守分组查询注意力来优化性能，DeepSeek V3全面拥抱了多头潜在注意力来大幅减少键值缓存带来的显存压力。

高效的设计理念迅速在行业内形成了共识。

法国人工智能初创公司推出的Mistral Large 3模型，采用了多头潜在注意力，在底层逻辑上与DeepSeek V3保持了高度一致，仅仅扩大了专家网络的参数规模。

为了彻底打破传统Transformer架构在处理超长文本时的计算瓶颈，部分研发团队开始尝试全新的底层路线。

通义千问团队推出的Qwen3模型，在传统的注意力层中穿插使用了门控Delta网络，大幅降低了计算复杂度。

英伟达发布的Nemotron 3 Nano模型，选择将Mamba-2状态空间模型与传统注意力机制融合，走上了一条兼顾推理速度与文本连贯性的混合架构之路。

Sebastian通过一幅幅手绘的架构图，为全行业提供了一个透明的观察窗口。

闭源模型背后的黑盒运作模式依然神秘，开放权重的模型生态却在对比中展现出了强大的生命力。

研究人员和工程师们可以通过可视化的图表，清晰地看到哪些技术被行业淘汰，哪些设计又成为了新的标准。

Sebastian是谁？

Sebastian在人工智能和机器学习领域拥有超过10年的经验，职业生涯横跨学术界与工业界。

他曾在美国UW-Madison（威斯康星大学麦迪逊分校）担任统计学助理教授，专门教授机器学习和深度学习课程。

如今在Lightning AI担任LLM研究工程师，专注于模型代码实现、系统训练以及高性能程序的开发。

Sebastian极力推崇动手编码的学习方式。面对复杂的语言模型，许多人习惯用抽象的比喻来解释原理，他更倾向于直接打开代码库，逐行探究数据如何流入模型、如何在神经网络中流转、最后如何输出结果。

他坚信物理学家理查德·费曼的理念，无法亲手建造的事物就无法真正理解。

务实的作风让他在开发者社区中积累了超高人气。

他的个人GitHub账号拥有数万名关注者，名为LLMs-from-scratch（大语言模型从零开始）的代码仓库被fork了超过1万次。

在社交平台和视频网站上，他持续无私地分享模型教程和技术心得。

Sebastian2024年出版的《从零构建大语言模型》（Build a Large Language Model (From Scratch)）被无数开发者奉为案头宝典。

全书摒弃了现成的模型代码库，手把手教读者使用Python语言和PyTorch深度学习框架，在一台普通的笔记本电脑上搭建类似GPT架构的基础模型。

读者跟随章节指引，会经历准备训练数据集、设计架构、实施预训练、针对特定任务微调的完整生命周期。

他在字里行间将注意力机制、Transformer架构、文本分词等晦涩的学术概念，转化成了清晰易懂的代码逻辑。

为了帮助读者更好地消化知识，他亲自录制了长达17个小时的配套视频课程，把书本文字变成了生动的操作演示。

2026年推出了续作《从零构建推理模型》（Build a Reasoning Model (From Scratch)）。重点探讨如何为系统注入强大的逻辑推理能力。

想深入了解LLM的爱好者或开发者，可以收藏起来了。

参考资料：

https://sebastianraschka.com/

https://github.com/rasbt/llm-architecture-gallery

https://sebastianraschka.com/llm-architecture-gallery/

https://news.ycombinator.com/item?id=47388676

https://x.com/rasbt/status/2033167146302210058

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

零成本Obsidian搭建你的私人本地知识库

AtomGit开源社区

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig

AtomGit开源社区

你以为中间商只赚Token差价？你的对话数据可能正在被卖掉

模型蒸馏（Knowledge Distillation）是将大模型（Teacher）的知识迁移到小模型（Student）的技术。大模型（如GPT-4/Claude）生成高质量输出↓收集大量"输入→输出"对↓用这些数据训练小模型↓小模型在特定任务上接近大模型水平蒸馏本身是合法的学术技术。问题在于数据从哪来。表面上卖的是算力，实际上卖的是你的智慧。你的每一个prompt、每一次对话、每一轮追问，都是你