8个核心概念层层递进，小白也能秒懂大模型原理！收藏这份进阶指南

嘴巴吃糖了

368人浏览 · 2026-04-29 11:59:10

嘴巴吃糖了 · 2026-04-29 11:59:10 发布

8 个核心概念，一层一层往上搭，看完你对 AI 的理解会上一个台阶。

**核心概念地图：**LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill

AI 圈子里每天都在冒一些看似高大上的新名词，这篇文章目的是让我们从最底层的工程视角出发，一个一个把这些词语拆开、揉碎、讲清楚，帮你对这些词语去魅的同时，理解 AI 运行的底层逻辑。

我们先从最底层的东西开始，一层一层往上搭。

01 LLM：大语言模型

AI 的「大脑」—— 一切的起点

LLM 全称 Large Language Model（大语言模型），简称大模型。你日常接触到的 ChatGPT、Claude、Gemini、豆包、文心一言，它们的核心都是一个 LLM。

1.1

工作原理：文字接龙

大模型的工作原理其实非常朴素——本质上就是一个文字接龙游戏。

想象你跟朋友玩成语接龙：你说"龙飞凤舞"，朋友要接"舞"开头的成语。大模型干的事差不多，只是它接的不是成语，而是任何文字。你说一句话，它根据前面的所有内容，猜下一个最合适的词是什么，吐出来，再猜下一个……一个词一个词地往外蹦，直到它觉得话说完了，才停下来。

关键点： 这就是为什么大模型要一个词一个词地输出答案——因为它就是这么运作的。就像你写作文时一个字一个字地写，它也是一个词一个词地"写"出回答。

但这里有个关键问题：大模型本质上是一个庞大的数学函数，里面跑的全是矩阵运算。它接收的是数字，输出的也是数字，压根就不认识人类写的文字。那它是怎么理解我们的语言的？

💡 类比： 想象一个只懂数字的外星人来到地球，它完全看不懂中文和英文。但如果你给它一本「密码本」——比如"苹果=42，好吃=77"——它就能把人类的文字翻译成自己懂的数字来处理了。大模型就是这个外星人，而帮它翻译的「密码本」就是我们下一节要讲的东西。

02 Token：语言的积木块

大模型处理文本的最基本单元

在人类和大模型之间，必须有一个「翻译官」来做转换。这个翻译官叫 Tokenizer，它负责两件事：编码（把文字变成数字）和解码（把数字还原成文字）。

2.1

编码过程：两步走

第一步：切菜。 就像厨师做菜之前要先把食材切成小块一样，Tokenizer 会把你的一句话切成一个个小片段，这些片段就叫做 Token。比如「我喜欢人工智能」会被切成：[我][喜欢][人工][智能]。

第二步：编号。 切好之后，给每个小片段贴一个数字标签（叫 Token ID）。就像超市里每件商品都有一个条形码——"苹果"的条形码是 48231，"牛奶"的条形码是 15097。Token ID 和 Token 本质上是同一个东西，只是换了一种大模型能看懂的表达方式。

2.2

Token ≠ 词

很多人以为一个 Token 就等于一个词，但其实不是。这就像切菜——你以为"西红柿"会被整个保留，但厨师可能把它切成了"西红"和"柿"两块：

文本	你以为	实际切分
工作坊	1 个 Token	工作 + 坊 = 2 个
程序员	1 个 Token	程序 + 员 = 2 个
helpful	1 个 Token	help + ful = 2 个
✓（对勾）	1 个 Token	需要 3 个 Token 表示

关键点： Token 是模型自己学会的一套切分规则，跟我们理解的"词"不完全对应。平均来讲，1 个 Token ≈ 0.75 个英文单词 ≈ 1.5~2 个汉字。

03 Context：上下文

AI 的「临时记忆体」

我们平时和大模型聊天，它好像能记住之前说过的话。比如你开头告诉它「我叫小明」，后面再问「我叫什么」，它还能回答出来。但大模型只是一个数学函数，并不像人一样真的有记忆。

那它是怎么做到的？

💡 类比： 想象你去一家餐厅，每次叫服务员过来，服务员都会换一个新人。新服务员对你之前点过什么菜一无所知。但餐厅有个规矩：每次叫服务员时，他会先看一遍桌上的点菜单——上面记录了你从进门到现在所有的点单记录。所以虽然每次来的都是「新人」，但他看完点菜单就知道你之前点了什么。

大模型就是这个"永远的新服务员"。每次你发消息，背后的程序会自动把你之前的整段对话历史一起发过去。模型每次看到的都是完整的"点菜单"，所以它才能"记住"之前发生了什么。

Context（上下文） 就是这张"点菜单"——大模型每次处理任务时所接收到的信息总和，包括用户问题、对话历史、模型正在输出的内容、工具列表、System Prompt 等等。

3.1

Context Window：点菜单的纸有多大

这张点菜单不是无限长的。Context Window（上下文窗口） 就是这张纸的大小——它代表 Context 能容纳的最大 Token 数量。

模型	Context Window	约等于
GPT-5.4	105 万 Token	≈ 157 万汉字
Gemini 3.1 Pro	100 万 Token	≈ 150 万汉字
Claude Opus 4.6	100 万 Token	≈ 150 万汉字

100 万个 Token 差不多是 150 万个汉字，整套《哈利波特》都能装得下。但即便如此，对于超大文档（比如上千页的产品手册），把全部内容塞进去也不现实——太贵了。

💡 类比： 这就像你去图书馆查资料。你不会把整个图书馆的书都搬到桌上，而是先去目录柜查一下，找到最相关的几本书，只把这几本带到座位上翻阅。AI 领域有个技术叫 RAG（检索增强生成），干的就是这个事——先从海量文档中抽取跟你问题最相关的几个片段，只把这几段喂给模型。

04 Prompt：提示词

和 AI 对话的「技术」

Prompt 就是大模型接收的具体问题或指令。你在聊天框里输入的每一句话，都是一个 Prompt——它并不是什么高端概念。

但 Prompt 怎么写，直接决定了大模型的输出质量。

💡 类比： 你去理发店，跟 Tony 老师说"帮我剪短一点"，结果可能千差万别——他不知道你要哪种短。但如果你说"两边推 3mm，顶部保留 5cm，打薄，不要刘海"，Tony 就知道该怎么下刀了。跟 AI 说话也是一样，说得越具体，结果越靠谱。

普通 Prompt（模糊）	高质量 Prompt（具体）
帮我写一首诗	请写一首五言绝句，主题秋天落叶，风格悲凉
帮我写个邮件	你是职场沟通顾问，请写一封给客户的跟进邮件，语气友好且专业…

4.1

两种 Prompt

实际应用中，Prompt 分为两种：

User Prompt（用户提示词） ——你自己输入的具体任务。比如「帮我看看这道数学题」。

System Prompt（系统提示词） ——开发者在后台偷偷塞给模型的"人设卡"，你看不到，但它一直在生效。

💡 类比： 你去剧本杀，拿到的角色卡上写着"你是一个冷面侦探，说话简洁，从不开玩笑"。之后不管玩家问你什么，你都会按照这个人设来回应。System Prompt 就是大模型的「角色卡」——开发者在后台给它发了一张，用户根本看不到，但模型的一切行为都受它影响。

举个例子：你做了一个数学辅导机器人，在后台设置 System Prompt：「你是一个耐心的数学老师，不要直接给答案，要引导学生思考。」当学生问「3+5 等于几」时，模型不会直接说 8，而是回答：「你手里有 3 个苹果，又拿了 5 个，现在一共有多少个呢？」

05 Tool：工具

让 AI 感知和影响外部世界

大模型有一个致命弱点——它无法感知外界环境。你问它「今天上海天气怎么样」，它会说「抱歉，我无法获取实时天气信息」。

💡 类比： 大模型就像一个被关在隔音房间里的超级学霸。他脑子里装满了知识，你递纸条进去问问题，他能写出精彩的回答递出来。但你要是问他"外面现在下雨了吗"，他完全没辙——因为房间没有窗户，他看不到外面的世界。

Tool（工具） 就是给这个隔音房间开的窗户和装的电话。Tool 本质上就是一个函数——你给它输入，它就给你输出。比如一个天气查询工具，输入「上海 + 今天」，输出天气信息。

5.1

完整流程：四个角色的协作

但这里有个重要细节：学霸自己不能打电话，他只能写一张纸条说"请帮我打电话给气象局查一下上海天气"，然后由房间外的助理来真正执行这个操作。

整个流程涉及四个角色：用户、平台（助理）、大模型（学霸）、工具（电话/窗户）。

步骤	谁 → 谁	做了什么
①	用户 → 助理 → 学霸	把问题递进去，同时告诉学霸"你可以让我帮你打电话查天气"
②	学霸 → 助理	学霸写纸条：“请帮我查一下上海今天的天气”
③	助理 → 工具	助理真正打电话给气象局，拿到结果
④	助理 → 学霸 → 用户	学霸收到天气数据，组织成一句人话回复用户

关键点： 大模型（学霸）能做的仅仅是写一张纸条，告诉助理它想查什么。真正打电话的是助理（平台），不是学霸（模型）——这是很多初学者容易搞混的地方。

06 MCP：统一接口

AI 世界的「Type-C」

工具有了，但工程上有个大问题：每个平台的工具接入规范都不一样。

💡 类比： 想象你买了一部手机、一个平板、一副耳机，结果发现手机用 Lightning 线，平板用 Micro-USB，耳机用 Mini-USB——三根线，三种接口，出门要带一堆线，崩溃。

AI 领域也一样。同一个天气工具，接 ChatGPT 要写一套代码，接 Claude 再写一套，接 Gemini 又写一套——同一个工具写三遍，开发者直接裂开。

MCP（Model Context Protocol，模型上下文协议） 就是 AI 世界的 Type-C 接口。名字听起来很学术，但本质就是一套统一的工具接入标准。有了 MCP，工具开发者只需按一个规范开发一次，工具就能被所有支持 MCP 的平台使用。一根线走天下。

	没有 MCP（各种接口）	有了 MCP（统一 Type-C）
开发成本	同一工具写 N 遍代码	写一次即可
接入方式	每个平台规范不同	统一标准协议
可复用性	低，各平台互不兼容	高，一次开发处处可用

07 Agent：智能体

会自己「想办法」的 AI

有了大模型和工具，还差什么？让我们看一个更复杂的例子：

「今天我这里的天气怎么样？如果下雨的话，帮我查一下附近有没有卖雨伞的店。」

之前讲的 Tool，是你告诉 AI"用这个工具查一下"，它就查一下。但现在这个问题不一样——它需要 AI 自己拆解任务、自己决定调用哪些工具、甚至根据中间结果改变策略。

💡 类比： 之前的 AI 像一个只会执行命令的实习生——你说"帮我查个天气"，他就查个天气，然后坐着等下一个指令。但现在我们需要的是一个靠谱的私人助理——你只说一句"我要出门，帮我搞定"，他就会自己想：先查你在哪儿、再查天气、发现下雨了就帮你找附近卖伞的店，最后把所有结果整理好告诉你。全程不需要你一步一步指挥。

步骤	助理的脑回路	行动
①	“主人问天气，我得先知道他在哪”	调用定位工具 → 获取经纬度
②	“好，位置有了，查天气”	调用天气工具 → 结果：有雨
③	“下雨了，主人说要找伞，我来查查”	调用店铺工具 → 附近 100m 全家有卖
④	“齐了，整理一下汇报”	综合信息，给出最终答案

我们称这种能够自主规划、自主调用工具、直至完成任务的系统为 Agent（智能体）。目前市面上已有很多 Agent 产品，比如 Claude Code、Codex、Gemini CLI 等。

08 Agent Skill：智能体技能

Agent 的「操作手册」

有了靠谱的私人助理（Agent），事情是不是就完美了？还差一步。

💡 类比： 你新招了一个助理，很聪明，什么都能做。但他不了解你的个人习惯。你喜欢出门前检查天气、根据天气带不同的东西（下雨带伞、太阳大带帽子、空气差带口罩）、而且你希望他每次用固定格式汇报。如果你不把这些规矩写下来，每次出门前你都得口头交代一大堆——“记得查天气啊，下雨提醒我带伞啊，格式按这个来啊”——第二天又得重新说一遍。太累了。

Agent Skill 就是你给助理写的那份 《工作手册》。写一次，助理永远照着执行，你再也不用重复交代。

8.1

本质：一份给 Agent 看的说明文档

Agent Skill 本质上就是你提前写好塞给 Agent 的一份说明文档（一个 Markdown 文件）。它的结构分为两部分：

封面（元数据层） ——相当于手册的标题页，告诉助理"这本手册叫什么名字，管什么事"。至少包含 Name 和 Description。

正文（指令层） ——具体的执行步骤、判断规则、输出格式和示例。就像你写给新员工的 SOP（标准操作流程）——第一步做什么，第二步做什么，遇到什么情况怎么处理，最后结果用什么格式输出。

8.2

智能加载机制：不是一股脑全看完

这里还有一个巧妙的设计：助理上班时不会把所有手册从头到尾全看一遍，他只会先扫一眼每本手册的封面——看看标题和简介。只有当你提的问题跟某本手册相关时，他才会翻开那本手册仔细看正文。

💡 类比： 就像一个高效的员工，桌上放着十本操作手册。来了一个关于"出差报销"的问题，他不会把十本全翻一遍，而是一眼扫到《出差报销手册》的封面，然后只打开这一本来按规定处理。

这种「渐进式披露」机制可以节省大量 Token，避免把所有 Skill 的完整内容都塞进 Context。

实操提示： 以 Claude Code 为例，Skill 文件需存放在 ~/.claude/skills/ 目录下，文件名必须叫 SKILL.md（大写）——这是硬性规范，算是个「接头暗号」，随便起名字系统不会认。

全景回顾

一张表串起所有概念

概念	一句话解释	类比
LLM	基于 Transformer 的文字接龙引擎	会玩成语接龙的超级学霸
Token	模型处理文本的最小单位，由 Tokenizer 切分	食材切成的小块
Context	模型每次处理任务时接收的信息总和	餐厅里的点菜单
Prompt	给模型的指令，分 User / System 两种	跟 Tony 老师说的发型要求
Tool	让模型感知和影响外部世界的函数	隔音房间里的电话和窗户
MCP	统一工具接入格式的标准协议	所有设备通用的 Type-C
Agent	能自主规划、调用工具、完成任务的系统	靠谱的私人助理
Agent Skill	给 Agent 的可复用说明文档	给助理写的《工作手册》

记住这条主线：

LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill

从底层智能到上层应用，一层一层，逐步构建。

理解了这些概念，你就看懂了 AI 圈子里的各种新产品、新技术。无论是 Claude Code、Codex、Cowork 还是 OpenClaw，它们本质上都在这个框架下运作。

AI 技术发展很快，新概念层出不穷，但万变不离其宗——理解了这 8 个核心概念，你就掌握了当前 AI 技术栈的主干。无论未来出现什么新概念，大概率都可以在这个框架里找到它的位置。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

在这里插入图片描述

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C++内存管理终极指南：从智能指针到RAII

AtomGit开源社区

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

代码地址：github.com/hiyouga/LlamaFactory总体来看，LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”，而是围绕这个核心目标，把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。Qwen3.5Qwen3.6Gemma4FSDP2DeepSpeed量化多模态v1 训