20张爆笑手绘图+核心代码,带你秒懂AI从神经网络到Agent的底层逻辑!
20 张手绘图讲透 AI 核心概念,从神经网络到 Agent 一次看懂
最近 X 上有一组手绘 AI 科普图刷屏了,作者 @sairahul1 把从神经网络到扩散模型的 20 个核心概念,每个都画成一张一目了然的插图,配上简洁的英文解释。我把这 20 个概念翻译整理成中文版,加上自己的理解,方便大家收藏查阅
1. 神经网络 Neural Networks
大脑有神经元,AI 也有。输入层接收数据,经过若干隐藏层的运算,最终输出结果。学习的过程就是不断调整这些连接的权重
整个结构其实很朴素,输入进来,层层传递,输出出去。关键在于中间那些隐藏层,每一层都在提取不同层级的特征

2. 分词 Tokenization
模型不认识"文字",它只认识数字。所以第一步是把一句话切成小块,每块对应一个数字编号
“She is playing football” 会被切成 She / is / play / ##ing / foot / ##ball 这样的 token。中文也类似,"人工智能"可能被切成"人工"和"智能"两个 token

3. 词嵌入 Embeddings
把每个 token 映射到一个高维空间里的坐标点。语义相近的词,坐标距离就近。Doctor 和 Nurse 挨着,King 和 Queen 挨着
这也是为什么大模型能理解同义词和类比关系。它不是靠字面匹配,是靠空间距离

4. 注意力机制 Attention
“She bought shares in Apple” 这句话里,Apple 是水果还是公司?模型通过注意力机制看整句话的上下文来判断。bought 和 shares 这两个词的权重很高,所以 Apple 被理解为公司
一个词的含义取决于它周围的词。注意力机制让模型能够动态地分配关注度

5. Transformer 架构
2017 年 Google 提出的架构,把上面的分词、嵌入、注意力全串起来,而且所有 token 可以并行处理。传统 RNN 一个词一个词地读,Transformer 一次读完整句话
这个架构是当前所有大模型的基础,GPT、Claude、Gemini、Llama 全都基于它

Part 2: 大语言模型是怎么工作的
6. 大语言模型 LLMs
本质上就是一个超大号的 Transformer,用海量文本训练出来。它的工作循环很简单:预测下一个词,检查对不对,调整参数,重复
GPT-4 有超过一万亿参数,训练数据覆盖互联网上大部分公开文本。但它的核心动作始终是"预测下一个 token"

7. 上下文窗口 Context Window
模型一次能看多少内容是有上限的。这个上限就是上下文窗口。早期的 GPT-3 只有 4K token,现在 Claude 3 已经到了 200K token,Gemini 更是做到了百万级别
窗口越大,模型能处理的信息越多,但计算成本也跟着涨。对于长文档分析、代码库理解这类任务,大窗口是刚需

8. 温度 Temperature
温度参数控制模型输出的随机性。Temperature = 0 时,模型每次都选概率最高的词,输出稳定可预测。Temperature 调高到 2,输出变得天马行空
写代码用低温度,写小说用高温度。大多数日常场景 0.7 到 1 之间就够了

9. 幻觉 Hallucination
模型会一本正经地编造事实。它的"自信"不等于"正确"。问它一个不存在的论文标题,它可能会编出完整的作者、期刊和摘要
这是当前大模型最大的可靠性问题。缓解方法包括 RAG(后面会讲)、多路验证、让模型说"我不确定"

10. 提示工程 Prompt Engineering
同一个模型,给它不同的提示词,输出质量差异巨大。一个含糊的提示和一个结构清晰、包含示例的提示,结果可能天差地别
好的提示包含三个要素:角色设定、具体任务描述、输出格式要求。这也是为什么"提示工程师"成了一个新职位

Part 3: AI 模型是怎么变强的
11. 迁移学习 Transfer Learning
从零训练一个模型要花几个月和几百万美元。迁移学习的思路是:拿一个已经训练好的基础模型,用少量新数据微调一下,就能适应新任务
训练成本从几百万降到几千块,时间从几个月缩短到几天。这也是为什么开源基础模型(Llama、Mistral)对行业这么重要

12. 微调 Fine-Tuning
在基础模型上用特定领域的数据继续训练。同一个底座模型,微调出来可以变成医疗助手、法律顾问、代码生成器
微调不改变模型的核心架构,只是调整参数权重。类似于一个全科医生去进修某个专科

13. RLHF 人类反馈强化学习
训练出来的原始模型可能会说有毒的话或者给出错误的信息。RLHF 的做法是:让模型生成多个回答,人类标注员选出最好的那个,模型根据这些偏好反馈来调整自己
这个过程重复成千上万次,原始模型逐渐变成一个对齐人类偏好的助手。ChatGPT 能好用,RLHF 功不可没

14. LoRA 低秩适配
全量微调一个大模型需要更新所有参数,代价太高。LoRA 的思路是冻结原始模型的所有参数,只在旁边加一小组可训练的"适配器"
效果几乎一样,成本降低 100 倍。现在社区里大量的开源微调模型都是用 LoRA 做的

15. 量化 Quantization
把模型参数从 32 位浮点数压缩到 8 位甚至 4 位整数。一个 70GB 的模型可以压缩到 4GB 左右,在笔记本上就能跑
精度会有一点损失,但对大多数应用场景来说几乎感觉不到。这也是为什么现在手机上也能跑大模型了

Part 4: 真实 AI 系统是怎么搭建的
16. RAG 检索增强生成
让模型在回答前先去检索相关资料,然后基于检索结果生成答案。先查再答,不是凭记忆编
RAG 大幅降低了幻觉率,而且知识可以实时更新,不需要重新训练模型。企业级 AI 应用几乎都在用这个架构

17. 向量数据库 Vector Databases
传统数据库按关键词搜索,向量数据库按语义搜索。搜"如何提高效率"也能匹配到"提升生产力的方法"
这是 RAG 架构的核心组件。把文档切块,每块转成向量存进数据库,查询时用语义相似度来召回最相关的内容

18. AI Agent 智能体
传统的 LLM 只能对话,Agent 能行动。它有一个思考-行动-观察-重复的循环:接到任务后自己拆解步骤,调用工具执行,观察结果,再决定下一步
2025 年是 Agent 爆发的一年,从 Manus 到 Claude Code,从 Cursor 到 Devin,能自主完成复杂任务的 AI Agent 正在重塑工作流

19. 思维链 Chain of Thought
直接问 AI “17 x 24 = ?” 它可能算错。但如果让它分步思考(17x20=340,17x4=68,340+68=408),正确率大幅提升
同一个模型,给更多"思考空间"就能给出更好的答案。这也是 o1、o3、Claude 3.5 Sonnet 等推理模型的核心原理

20. 扩散模型 Diffusion Models
Midjourney、DALL-E、Stable Diffusion 背后的技术。训练时把图片逐步加噪声直到变成纯噪点,推理时反过来,从噪点一步步还原出图片
文本生成图片的关键在于:用文字描述来引导去噪的方向。同样的噪点,不同的文字提示,生成完全不同的图片

最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后
1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)