从 LLM 到 Agent Skill，一篇文章带你打通底层逻辑！

追梦

463人浏览 · 2026-03-22 11:21:51

追梦 · 2026-03-22 11:21:51 发布

最近 AI 圈子里，新名词层出不穷：

LLM、Token、Context、Context Window、Prompt、Tool、MCP、Agent、Agent Skill……

这些词你大概率都听过。刷文章会看到，刷视频会看到，听别人分享也会看到。

但我想问一个很直接的问题：

你真的能准确说清楚它们分别是什么意思吗？
更进一步说，你真的知道它们在一个 AI 系统里，各自扮演什么角色吗？

很多人其实并不清楚。

表面上看，好像大家都在聊 AI。可一旦深入一点，你就会发现，很多讨论其实都停留在“听过名词”的层面：

知道 LLM 很火，但说不清它本质上在干什么
知道 Token 很重要，但不知道为什么一长段话会那么费 Token
知道 Prompt 影响回答质量，但不理解 System Prompt 和 User Prompt 的区别
知道 Agent 很高级，但不清楚它和普通聊天机器人到底差在哪里
知道 MCP 很火，却不知道它其实解决的是“工具接入标准”的问题

所以这篇文章，不讲商业概念。不谈“AI 将重塑未来”，也不谈“下一代生产力革命”这种大词。只做一件事：

从最底层的工程视角出发，把这几个概念一一讲清楚。

你看完之后，最大的变化不是你又多记住了几个术语。而是你会第一次真正看懂：今天大多数 AI 产品，底层到底是怎么运作的。

不喜欢看文字，想看视频的朋友们可以移步视频号。

视频来源：马克的工作坊

https://www.youtube.com/watch?v=7qO8-kx3gW8

一、先从最底层开始：LLM

1. 什么是 LLM

LLM 全称 Large Language Model，翻译成中文就是：

大语言模型

平时大家也会直接叫它：

大模型

从字面上理解：

Large
：规模很大，参数很多，训练数据也很多
Language
：处理语言，包括自然语言、代码、符号等
Model
：它归根到底是一个数学模型

所以，LLM 不是“电子大脑”这种玄学概念。
更准确地说，它是一个超大规模的语言建模系统。

2. 现在的大模型，几乎都站在 Transformer 之上

今天主流的大模型，基本都是基于 Transformer 架构训练出来的。

如果你看过 Transformer 的那张经典结构图，大概率会有一种感觉：

看不懂，但大受震撼。

这很正常。
因为那张图本来就不是给零基础读者一眼看懂的。

今天我们也不打算展开讲它的数学细节，比如：

Self-Attention 怎么算
Q、K、V 到底代表什么
多头注意力为什么有效
前馈层、残差连接、LayerNorm 又分别在干什么

这些内容当然重要，但不是今天的重点。
你现在只需要先记住一句话：

大模型的核心底层引擎，就是 Transformer。

3. Transformer 是谁提出来的？

Transformer 架构最早是由 Google 团队在 2017 年提出的。
那篇论文的名字非常有名：

Attention Is All You Need

可以说，今天这波生成式 AI 大爆发，技术火种就是从这里点起来的。

但技术史里常常有个很有意思的现象：

发明火种的人，不一定是把世界点燃的人
开创架构的人，不一定是让全球用户真正感受到冲击的人

Google 提出了 Transformer，
而真正把“大模型”这件事推向全球、推向大众视野的，是 OpenAI。

4. 为什么 GPT 系列会成为一个时代节点？

大家应该都记得，2022 年底 GPT-3.5 出现时，很多人第一次真正感受到：

原来 AI 已经不是实验室里的概念了。

它不是简单地回答几个模板化问题，
而是真的能：

聊天
写代码
改文案
总结资料
解释概念
帮人完成实际任务

这和过去那种“智能客服式”的体验，完全不是一个量级。

接着在 2023 年 3 月，GPT-4 发布。
这一步，又把大家对 AI 能力上限的认知整体往上抬了一层。

所以你会发现，GPT 系列的意义不只是“模型更强了”，而是：

它让全世界第一次大规模意识到：大模型是一个通用平台级能力。

5. 如今已经不是 OpenAI 一家独大

当然，现在的 AI 世界早就不是 OpenAI 的独角戏了。
后面陆续出现了很多强力选手，比如：

Claude
Gemini
各种开源模型
各类垂直场景模型

它们在不同方向上各有优势：

有的擅长长上下文
有的擅长代码生成
有的擅长工具调用
有的擅长多模态
有的擅长企业落地

这说明一件事：

今天的大模型竞争，已经从“谁先做出来”进入到“谁在哪些场景更强”的阶段。

6. LLM 的本质，其实非常朴素

很多人第一次接触 AI，会下意识把它想得很神秘。
但如果你从最底层原理去看，会发现它的本质其实很朴素：

它就是在做“下一个 Token 预测”。

也就是说，大模型的核心任务不是“理解世界”，
而是根据当前已经看到的内容，去预测：

下一个最可能出现的 Token 是什么。

举个最简单的例子

假设你问模型一句话：

繁光的文章怎么样？

模型不会一下子把整句回答全部想好再吐出来。
它真正的工作方式更像这样：

第一步，它看着输入内容，预测下一个最可能出现的 Token。
比如它预测出：

特别

然后，它把这个“特别”重新拼回上下文里。
输入就变成了：

繁光的文章怎么样特别

接着它再继续预测下一个 Token。
比如预测出：

得

然后再拼回去。
继续预测：

棒

于是，回答就一步一步长出来了：

特别得棒

等它觉得该说的话说完了，就会输出一个结束标记，整段回答到此结束。

7. 为什么 AI 总是一个字一个词往外冒？

因为它本来就是这么工作的。

它不是先写完一整篇文章，然后再一次性显示给你。
它是：

先看当前输入
预测下一个 Token
把这个 Token 接回去
再继续预测下一个
如此循环，直到结束

这也是为什么很多 AI 产品都支持“流式输出”。

因为这不是表演形式，而是它的真实生成机制。

二、Token：大模型真正处理的，不是“词”，而是 Token

刚才为了让大家容易理解，我们用了“一个词一个词生成”的说法。
但严格来讲，大模型真正处理的，不是词，而是：

Token

这是理解大模型最重要的基础概念之一。

1. 为什么模型不能直接处理文字？

因为模型本质上是个数学系统。
它内部做的是：

向量运算
矩阵乘法
概率分布计算

它认识的是数字，不是汉字，不是英文，不是代码字符本身。

所以在人类文字和模型之间，必须有一个“翻译层”。

这个翻译层就是：

Tokenizer

2. Tokenizer 是干什么的？

Tokenizer 负责两件事情：

1）编码（Encode）

把人类的文字转换成模型能处理的数字。

2）解码（Decode）

把模型输出的数字，再还原成人类能读懂的文字。

你可以把它理解成一个双向翻译官。

人类说的是自然语言
模型吃的是数字序列
Tokenizer 负责来回转换

3. Token 是怎么来的？

还是用前面的句子举例：

繁光的文章怎么样

Tokenizer 在编码时，一般会做两步：

第一步：切分

把这句话拆成一个一个最小片段。
这些片段就叫 Token。

第二步：映射

再把每个 Token 映射成一个数字。
这个数字叫 Token ID。

于是：

Token 是文本层面的单位
Token ID 是数值层面的编号

最后，模型真正接收到的，不是这句汉字本身，而是一串 Token ID。

4. 模型输出时也是一样的

模型内部一通计算之后，吐出来的仍然不是“文字”，
而是一个新的 Token ID。

然后 Tokenizer 再把这个 Token ID 解码成对应的文本，
你才会在界面里看到一个字、一个词、一个符号。

所以，从头到尾，大模型真正处理的基本单位都不是“句子”，也不是“词语”，而是：

Token

5. 很多人会误会：Token 不就是词吗？

不是。

这是一个非常常见、但也非常关键的误解。

Token 和“词”不是一一对应的关系。

有时候它们看起来像一样，那只是碰巧。

比如：

繁光的文章怎么样

这个例子里，它可能正好被切成：

繁光
的
文章
怎么样

这会让人误以为：
“哦，原来一个词就是一个 Token。”

但换个例子你就会发现不是这样。

6. 为什么 Token 不等于词？

例如这句话：

繁光的智能工作室

从人的直觉出发，可能会觉得可以切成：

繁光
的
智能
工作室

但在很多 Tokenizer 里，“工作室”并不一定是一个 Token，
它可能会被拆成：

工作
室

于是总共就变成了 6 个 Token，而不是 4 个。

再比如：

工程师

从语义上讲，这是个完整的词。
但在 Tokenizer 眼里，它也可能被拆成：

工程
师

也就是说：

词是人类语言学上的概念，Token 是模型为了计算方便学出来的一套切分规则。

这两者，不必完全一致。

7. 英文是不是就一定一个单词一个 Token？

也不是。

有些常见英文单词，确实可能正好对应一个 Token。
比如：

hello
going

但这并不是固定规则。

例如：

helpful

它就可能被拆成：

help
ful

https://platform.openai.com/tokenizer

甚至某些特殊字符，一个字符还可能对应多个 Token。

所以，不要把 Token 简单理解成“词”。
更准确的理解是：

Token 是模型可处理的最小文本单元。

8. Token 的一个实用理解方式

你可以这样记：

Token 不是语文老师定义的“词”，
而是模型自己学会的一套“最合适的文本切分颗粒度”。

这个定义非常接近真实工程含义。

9. Token 和字数怎么换算？

很多人第一次看到“100 万 Token”的时候没概念。
所以这里给一个粗略换算：

1 个 Token ≈ 0.75 个英文单词
1 个 Token ≈ 1.5 到 2 个汉字

于是：

40 万 Token ≈ 60 到 80 万汉字
100 万 Token ≈ 150 万到 200 万汉字

当然这只是经验值。实际数量会因为文本类型不同而有明显波动，比如：

中文和英文不同
代码和自然语言不同
JSON、表格、URL 往往更吃 Token
特殊符号密集内容也更贵

这也是为什么很多人会惊讶：

“我明明没写多少字，怎么 Token 消耗这么快？”

因为你以为自己给的是“一段文字”，
模型看到的是一大串细粒度切分后的 Token。

三、Context：大模型的“临时记忆体”

讲完 Token，再来看一个几乎所有人都经历过、但不一定认真想过的问题。

我们平时和 AI 聊天，会发现它似乎能记住前面说过的话。

比如你在开头说：

我叫繁光

过一会儿你再问：

我叫什么？

它通常能回答出来。

这就会让很多人产生一种错觉：

大模型是不是像人一样真的有记忆？

其实不是。

1. 模型本身并不会天然“记住”你

从底层来看，大模型依然只是一个函数：

给它输入
它给你输出

它不像人一样，有一个自然形成的、长期稳定的个人记忆系统。

那它为什么还能记住前文？

答案其实很简单：

因为程序在每次调用模型时，会把前面的对话内容一起发过去。

模型不是“记住了”，
而是“又重新看到了”。

2. 这就引出了 Context

所谓 Context，中文通常翻译为：

上下文

它指的是：

模型在当前这一次处理任务时，接收到的全部信息总和。

注意，是“全部信息总和”，而不是只指你最新输入的那句话。

3. Context 里面通常包含什么？

在真实系统里，Context 可能包括：

当前用户输入
历史对话记录
System Prompt
可用工具列表
工具调用结果
平台追加的控制信息
模型当前生成中的内容

所以当你觉得模型“记得”你之前说过什么时，本质上发生的事情并不是它脑子里有记忆，而是：

之前的信息被重新放进了这次的 Context 里。

4. 为什么可以把 Context 理解成“临时记忆”？

因为从效果上看，它很像模型的工作记忆区。

它里面装着：

当前任务所需的信息
前面对话留下来的痕迹
系统给它的行为规则
工具返回的数据

模型就是基于这些东西继续往下推理的。

所以你可以把 Context 理解为：

模型每次开工时手边摊开的那一摞材料。

不是“永久记忆”，
而是“本轮工作台上的资料”。

四、Context Window：上下文窗口

既然 Context 是模型每次处理任务时能看到的全部信息，那自然就会问：

它最多能看到多少？

这就是：Context Window

中文一般叫：上下文窗口

1. 它的定义非常直接

Context Window 指的是：

模型一次推理中，最多能容纳多少 Token 的上下文。

如果某个模型的 Context Window 是 1 万，
就意味着这次调用中，所有上下文加起来最多只能有 1 万 Token。

注意，这个“所有上下文”不只是你的问题，还包括：

历史对话
System Prompt
工具结果
当前问题
模型生成中的内容

这些都会一起占用窗口空间。

2. 为什么 Context Window 很重要？

因为它直接决定了模型很多能力边界。

比如：

能不能看长文档
能不能记住长对话
能不能处理大代码仓库
Agent 能连续跑多久
工具返回内容会不会把上下文撑爆

你平时遇到很多“AI 突然变笨”的现象，其实背后都可能和 Context Window 有关。

比如：

聊久了开始忘前面内容
做长任务做到后面质量下降
明明刚刚说过的规则，后面又被忽略
多轮工具调用后回答突然混乱

这些都不是玄学。
很多时候，它只是因为上下文压力变大了。

3. 100 万 Token 到底是什么概念？

前面说过，1 个 Token 大概等于 1.5 到 2 个汉字。

所以：

100 万 Token，大约就是 150 万到 200 万汉字

这个量级已经非常惊人了。
从直觉上说，很多超长文档、整本书，甚至多本书拼起来，都可能塞得进去。

这也是为什么近两年很多模型都在强调自己支持“超长上下文”。

因为这会显著提升：

长文档问答
长代码分析
大项目理解
多步 Agent 执行

4. 但窗口再大，也不代表你应该什么都往里塞

这里有个特别容易误解的点：

Context Window 大，不等于最佳做法就是“把所有内容一股脑全塞进去”。

为什么？

第一，成本会失控

Token 越多，调用成本越高。

第二，信息噪音会增大

上下文太长，不相关信息太多，反而可能干扰模型判断。

所以在工程里，真正重要的不是“塞得越多越好”，
而是：

给模型最相关的信息。

5. 这就是 RAG 的意义

假设你有一本几千页的产品手册，希望模型根据它回答用户问题。这时候你当然可以尝试把整本书都塞进上下文。但在大多数实际工程里，更合理的做法是：

RAG（检索增强生成，Retrieval-Augmented Generation）

它的基本思路是：

先把大文档切分并建立索引
当用户提问时，先去检索最相关的几个片段
只把这些最相关片段放进 Context
再让模型基于这些片段回答

这样做的好处很明显：

节省成本
降低噪音
提高相关性
更适合企业知识库、客服问答、文档检索场景

所以，长上下文很重要，
但“检索出对的问题片段再喂给模型”同样重要。

五、Prompt：你给模型下达的任务指令

接下来讲一个很多人最早接触、但也最容易被神化的概念：

Prompt

中文通常翻译成：提示词

但其实你完全不用把它想得很玄。它本质上就是：

你给模型输入的问题、指令、要求、规则。

1. 最简单的 Prompt，就是你说的话

比如你对模型说：

帮我写一首诗

这句话本身就是一个 Prompt。所以 Prompt 不一定是什么复杂模板、神秘黑话。它最朴素的定义就是：

你让模型做什么。

2. 为什么 Prompt 很重要？

因为模型的输出质量，很大程度上取决于：

你有没有把要求说清楚。

比如你只说：

帮我写一首诗

模型可能写：

古诗
现代诗
打油诗
抒情诗
搞笑诗

因为你的要求太模糊了。

但如果你这样说：

请帮我写一首五言绝句，主题是秋天的落叶，风格偏悲凉

那模型的输出就会稳定得多。

因为它知道了：

体裁
主题
情绪风格

这就是 Prompt 的价值。

3. Prompt Engineering，到底在干什么？

所谓 Prompt Engineering，说白了就是：

研究怎么把话说明白，让模型更准确理解你的意图。

过去这个概念非常火，因为早期模型能力没那么强，Prompt 稍微写得好一点，效果差别就会很明显。

但今天模型能力越来越强，很多模糊表达它也能大概猜出来。所以 Prompt Engineering 的神秘感下降了。不过这并不意味着 Prompt 不重要。它只是意味着：

炫技式 Prompt 没那么重要了
清晰表达仍然很重要
在复杂系统和 Agent 场景里，高质量 Prompt 依然是基础功

六、Prompt 还分两类：User Prompt 和 System Prompt

事情到这里还没有结束。

因为在真实系统里，模型接收到的“指令”往往不只有用户输入的那一句话。

有时候我们还需要提前告诉模型：

你是谁
你应该扮演什么角色
你必须遵守什么规则
你不能怎么做
你的输出风格是什么

于是，Prompt 就分成了两类。

1）User Prompt：用户提示词

User Prompt 很简单，就是用户在界面里直接输入给模型的话。

例如：

帮我写一首诗
3 加 5 等于几
总结一下这篇文章
帮我改写这段文案

这些都属于 User Prompt。

2）System Prompt：系统提示词

System Prompt 则是开发者在后台设置的规则。用户通常看不到，但它会持续影响模型行为。

比如开发者可以写：

你是一个耐心的数学老师
不要直接告诉学生答案
要引导对方一步一步思考
回复语气要温和
不要使用过于复杂的术语

这些就属于 System Prompt。

一个特别经典的例子：数学辅导机器人

假设你要做一个数学辅导机器人，你的目标不是让它直接报答案，而是引导学生思考。那你就可以这样设计：

System Prompt

你是一个耐心的数学老师。当学生问你数学题时，不要直接给出答案，而是一步一步引导他们理解解题思路。

User Prompt

3 加 5 等于几？

模型同时看到这两层信息后，回答很可能会变成：

我们可以这样想，你手里有 3 个苹果，又拿了 5 个苹果，现在一共有多少个呢？你可以试着数一数。

如果没有 System Prompt，它很可能直接回答：

8

所以你会发现：

User Prompt 决定“做什么”
System Prompt 决定“以什么方式做”

这两者叠加在一起，才构成了模型实际行为的控制逻辑。

七、Tool：AI 为什么突然“能查天气、能读文件、能执行代码”了？

下面进入一个真正让大模型从“会聊天”升级到“能做事”的关键概念：

Tool

很多人第一次听“工具”这个词，会觉得太抽象。
但如果换个说法，就立刻清楚了：

Tool，本质上就是函数。

1. 为什么大模型需要 Tool？

因为大模型有一个天然弱点：

它没法直接感知外部世界。

比如你问它：

今天上海天气怎么样？

如果它没有联网、没有外部查询能力，它只能说：

我无法获取实时天气
我的知识截止到某个时间
我无法提供今天的实时信息

为什么？

因为大模型的能力来源于训练数据和当前上下文。
它不会自己去打开天气网站，也不会自己去查实时数据库。

它需要一个外部接口，替它完成“查”的动作。

这就是 Tool 的价值。

2. Tool 的本质是什么？

Tool 本质上就是一个函数接口：

你传入参数
它返回结果

比如“天气查询工具”，可能需要：

城市
日期

或者：

经度
纬度

它内部也许会：

调用天气 API
查数据库
连第三方服务

但对模型来说，这些都不是重点。
模型关心的是：

这个工具叫什么
它能干什么
需要什么参数
会返回什么信息

Tool 调用时，系统里到底发生了什么？这里通常会涉及四个角色：

用户
平台
大模型
工具

其中，平台很关键。你可以把它理解成中间的调度员、传话筒、执行器。

因为：

用户不会直接调用工具
模型也不会真的自己执行函数
工具也不会自己把结果交给用户

平台负责把这一切串起来。

3. 一个完整例子：查天气

比如用户问：

今天上海天气怎么样？

流程通常是这样的：

第一步：用户把问题发给平台

不是直接发给工具。

第二步：平台把问题和“可用工具列表”一起发给模型

模型看到的不只是问题，还有当前可用能力。

例如：

weather 工具
calculator 工具
search 工具

第三步：模型判断是否需要调用工具

模型会分析：

用户问的是天气
我自己没有实时天气数据
但这里有 weather 工具可用
所以应该调用它

第四步：模型输出工具调用指令

注意，模型不会真的去执行函数。
它只能输出一段结构化指令，大意像这样：

调用工具：weather
参数：city=上海，date=今天

第五步：平台真正执行工具

平台看到这个指令后，才会实际调用 weather 这个函数。

第六步：平台拿到工具返回结果

比如：

晴
15℃ 到 25℃
东风 3 级

第七步：平台把这个结果再发给模型

模型看到工具返回后，会把它整理成人类更容易读懂的话。

第八步：平台把最终结果返回给用户

比如：

今天上海天气晴，气温 15 到 25 度，整体比较舒适。

4. 一个特别容易搞错的点

很多人会误以为：

是模型在调用工具

其实不准确。

更准确的说法是：

模型负责决定“用哪个工具、传什么参数”，
真正执行工具的是平台。

模型依然只是一个“生成文本 / 生成指令”的系统。
真正对外部世界产生作用的，是平台和工具执行层。

5. 所以，Tool 的意义是什么？

一句话总结：

Tool 是模型连接外部世界的手和眼。

没有 Tool 的模型，本质上仍然只是一个基于训练数据和上下文生成文本的系统。
有了 Tool，它才开始具备：

查天气
查地图
查数据库
跑代码
读文件
调接口
控浏览器
操作企业系统

这些真实能力。

也正是从这里开始，AI 才逐渐从“会说话”走向“会做事”。

八、MCP：为什么 AI 工具也需要一个“Type-C 接口”？

理解了 Tool 之后，很快就会遇到一个工程问题：

工具怎么接进不同平台？

如果每个平台的接入规范都不一样，那开发者会非常痛苦。
于是，这就引出了：

MCP

1. MCP 是什么？

MCP，全称是：

Model Context Protocol

中文一般翻译成：

模型上下文协议

这个名字听起来稍微有点学术。
如果你想快速理解它，可以直接把它理解成：

统一的工具接入标准。

2. 为什么会需要 MCP？

假设你开发了一个很好用的工具。你希望它既能在 OpenAI 生态里使用，也能在 Anthropic、Google 或其他平台里使用。如果大家各自有一套不同的工具接入方式，你就得：

按 OpenAI 的标准写一套
按 Anthropic 的标准再写一套
按 Google 的标准再写一套

同一个工具，重复适配很多次。这非常低效。于是，AI 工具生态就会变得很碎片化。

3. MCP 想解决的，就是“重复适配”问题

它的目标很明确：

能不能定义一套统一标准，让工具开发者只开发一次，就能被所有支持该标准的平台接入？

如果这个目标实现，整个生态都会轻松很多：

工具开发者更省事
平台更容易接入工具
产品之间更容易互通
Agent 更容易复用外部能力

4. 用一个特别形象的类比来理解

你可以把 MCP 理解成：

AI 工具世界里的 Type-C 接口。

以前不同手机有不同充电口，后来大家逐渐统一到 Type-C，体验立刻提升。MCP 做的事情很像：

它不是发明工具
也不是发明模型
它是在统一“接头规范”

这样一来，大家接起来就顺多了。

5. MCP 的价值，不在“变聪明”，而在“变顺畅”

这一点很重要。MCP 不是让模型突然更聪明，它解决的不是“智力问题”，而是“工程接入问题”。它的价值是：

降低接入成本
提升生态互联效率
让工具更容易跨平台复用
让 Agent 和工具生态更容易成长起来

所以 MCP 很重要，但它的重要性是“基础设施层”的重要，不是“模型推理层”的重要。

九、Agent：从“回答问题”，走向“完成任务”

到这里为止，我们已经有了：

LLM
Prompt
Tool
MCP

看起来已经很强了。但为什么行业里又多了一个特别火的词：

Agent

因为仅仅“会回答”和“会调一次工具”，还不够。真正复杂的任务，往往需要：

多步规划
条件判断
连续执行
动态决定下一步做什么

这就是 Agent 的价值所在。

1. 一个简单问题，和一个复杂任务的区别

如果用户只是问：

今天上海天气怎么样？

模型调用一次天气工具，拿到结果后总结一下，就结束了。这是一个典型的单步任务。

但如果用户说：

今天我这里天气怎么样？如果下雨的话，顺便帮我查一下附近有没有卖雨伞的店。

这个问题就变复杂了。它不是一个动作，而是一个多步流程：

先确定我在哪里
再查当前位置天气
判断是不是下雨
如果下雨，再查附近雨伞店
最后整合答案

这已经不是“简单调用一个工具”了。而是需要边做边判断。

2. 从模型视角看，Agent 在干什么？

以这个场景为例，模型的内部推理流程很像这样：

第一步：

用户问天气。
要查天气，先得知道位置。
当前有定位工具，所以先调用定位工具。

第二步：

拿到经纬度后，下一步是查天气。
当前有天气工具，于是调用天气工具。

第三步：

天气结果出来了，发现有雨。
用户要求说“如果下雨，就帮我查卖伞的地方”。
于是继续调用店铺搜索工具。

第四步：

店铺结果出来后，整合所有信息，输出最终回答。

注意，这里最关键的不是“会用工具”，而是：

它会根据当前状态，决定下一步该做什么。

2. Agent 的定义

所以，Agent 可以理解为：

能够自主理解目标、自主规划步骤、自主调用工具，并持续运行直到完成用户任务的系统。

它和普通聊天模型最大的区别就在于：

普通模型更像：

你问一句，我答一句

而 Agent 更像：

你给我一个目标，我自己拆步骤把它办完

3. Agent 的关键不在“能回答”，而在“能持续行动”

从工程角度看，一个成熟的 Agent，通常会涉及这些能力：

任务理解
步骤规划
工具选择
参数生成
条件判断
结果利用
多轮循环
最终归纳

所以 Agent 不是某个单点功能，而是一种“可持续执行任务”的系统结构。

4. 为什么 Agent 这两年这么火？

因为它把模型的角色从“会聊天的助手”，推进到了“会做事的执行者”。

这意味着 AI 的应用边界一下子被拉宽了：

不只是回答问题
还可以帮你查资料
帮你写代码
帮你跑脚本
帮你分析项目
帮你连接系统
帮你完成一条完整工作流

这也是为什么市面上开始出现大量 Agent 类产品，例如：

Claude Code
Codex
Gemini CLI
各类自动化智能体
AI 开发代理
企业级任务助手

它们的底层思路虽然不同，但核心都在做同一件事：

让 AI 从“答题”升级为“执行”。

十、Agent Skill：为什么 Agent 还需要“说明书”？

你可能会想，既然 Agent 都已经能规划、能调用工具、能执行任务了，那是不是已经很完美了？

现实是：还差一步。

因为 AI 虽然会做事，但它不一定会按照你喜欢的方式做事。这时候就需要：

Agent Skill

1. Agent Skill 是什么？

一句话概括：

Agent Skill，就是写给 Agent 看的说明文档。

它不是给终端用户看的，而是给 Agent 的“工作手册”。

里面会写清楚：

你要完成什么目标
你应该按什么步骤做
你要遵守哪些规则
你要用什么格式输出
你最好参考什么示例

2. 为什么 Agent 需要 Skill？

举个生活化例子。

假设你想让 Agent 变成你的“出门助手”。每次出门前，它都帮你查天气，并提醒你该带什么。但你有自己的一套个人习惯：

下雨带伞
太阳太强带帽子
空气差带口罩
风大穿防风外套
无论如何手机必带

而且你还很在意回答格式：

先一句总结
再列物品清单
不要啰嗦
不要自由发挥太多

如果没有预设这些规则，那你每次都得重新写一大串 Prompt。
这显然很麻烦。

所以最好的办法就是把这些规则提前写好，做成一个可复用的 Skill。

3. Agent Skill 的本质是什么？

从本质上看，它其实就是：

把反复会用到的任务规则，外置成一份结构化说明文档。

这件事的价值非常大，因为它能让 Agent 的行为从“临场发挥”变成“可复用、可维护、可解释的执行逻辑”。

4. 一个 Skill 通常会写什么？

一般来说，一个 Agent Skill 可以分成两部分。

第一部分：元数据层

这相当于封面，告诉 Agent：

这个 Skill 叫什么
它是做什么的

常见字段至少有：

Name
Description

第二部分：指令层

也就是正文。这里通常会写：

目标
执行步骤
判断规则
输出格式
示例

比如“出门清单”这个 Skill 可以这样设计：SKILL.md

---
name: go-out-checklist
description: 生成出门清单。当用户询问“出门要带什么/要准备什么/今天外出需要带哪些东西”时使用
---

# 目标
你是一个贴心的“出门清单助手”。你的任务是根据用户所在位置的实时天气情况，告诉用户出门必须携带的物品。

# 执行步骤
1. 调用“定位工具”，获取用户当前所在位置的经纬度。
2. 将获取到的经纬度作为参数，调用“天气工具”，一次性获取降雨情况、光照强度、空气质量和风力大小这四项数据。
3. 根据天气数据结果，按照下方的“判断规则”整理出门需要携带的物品。
4. 严格按照下方的“输出格式”向用户输出最终结果。

# 判断规则
1. 手机：无条件必带。
2. 伞：当“天气工具”返回“有雨”时，必须携带。
3. 帽子：当“天气工具”返回“光照强”时，必须携带。
4. 口罩：当“天气工具”返回“空气质量差”时，必须携带。
5. 防风外套：当“天气工具”返回“强风”时，必须携带。

# 输出格式
你必须输出两段：

【结论一句话】  
用一句话总结今天出门最关键的注意点（例如“有雨 + 光照强”，或“风力大”）。
【出门清单】  
- 物品（原因）  
- 物品（原因）

# 示例
## 用户问题
我马上要出门，帮我看看今天需要准备带些什么？

## 工具返回
### 定位工具
{
  "经度": -73.9855,
  "纬度": 40.7580
}

### 天气工具
{
  "降雨情况": "有雨",
  "光照强度": "弱",
  "空气质量": "良",
  "风力大小": "强风"
}

## 最终输出
【结论一句话】
有雨 + 强风

【出门清单】

手机（必带）
伞（有雨）
防风外套（强风）

5. Agent Skill 为什么这么有用？

因为它把“经验”变成了“规则”。这在工程里特别重要。任何靠模型临场猜测的行为，都可能波动。而显式写出来的规则，则会大幅提升：

输出一致性
行为可控性
修改便利性
团队协作效率
复用能力

所以你可以把 Agent Skill 理解成：

Agent 的岗位 SOP。

6. 它在系统里怎么落地？

以 Claude Code 这类产品为例，Skill 往往不是随便放个文档就行，而是有明确约定。例如：

存放在特定目录
每个 Skill 一个独立文件夹，例 go-out-checklist
文件夹名和 Skill 名要一致
正文文件名必须叫 SKILL.md

这说明一件事：

Agent Skill 不是普通文档，而是被系统识别和加载的一类特殊文档。

7. Skill 不只是“文档”，而是行为配置层

更进一步讲，Agent Skill 的价值不只是“省得你重复打字”。它实际上把 Agent 的行为逻辑，从部分代码层，外置到了文档层。这会带来很多高级价值：

降低开发门槛
让业务人员也能参与规则定义
方便版本管理
方便团队复用
便于形成领域技能库
节省 Context 中重复注入的大量 Token

所以 Agent Skill 的出现，标志着 Agent 系统开始往“工程化、产品化、团队化”方向走了。

十一、把这整套体系串起来，你就真正看懂 AI 了

到这里，我们已经把这些概念一个个拆开讲完了。现在把它们重新串起来看，你会更容易理解整个 AI 系统的结构。

第一层：LLM

这是核心大脑。
负责推理、生成、判断、规划，本质是不断预测下一个 Token。

第二层：Token

这是最小处理单位。
模型不是按“词”处理，而是按 Token 处理。

第三层：Context

这是模型本轮任务看到的信息总和。
你可以把它看成模型的临时工作记忆。

第四层：Context Window

这是这块临时记忆的容量上限。
它限制了模型一次最多能看多少 Token。

第五层：Prompt

这是当前给模型下达的任务说明。
包括用户要求和系统规则。

第六层：Tool

这是模型连接外部世界的函数接口。
它让模型具备查数据、做动作、调系统的能力。

第七层：MCP

这是统一工具接入格式的标准协议。
它让工具生态更容易互联。

第八层：Agent

这是会自主规划和连续执行的系统。
它不只是回答，而是持续完成任务。

第九层：Agent Skill

这是给 Agent 看的说明文档。
它规定规则、步骤、格式和示例，让 Agent 更稳定地做事。

十二、为什么理解这几个词，比追热点更重要？

因为今天 AI 圈子里几乎所有新产品、新技术、新包装，最后都逃不开这套框架。无论你看到的是：

Claude Code
Codex
Gemini CLI
AI IDE
企业知识库
智能客服
自动化工作流
编程代理
智能运维助手

它们本质上都在这几个层面做增强和组合：

模型更强
上下文更长
Prompt 管理更成熟
Tool 更丰富
MCP 更统一
Agent 更会规划
Skill 更可复用

所以真正重要的，不是死记硬背名词。而是看懂它们分别属于哪一层、解决的是什么问题。当你具备这种视角之后，别人再抛给你一个新名词，你的第一反应就不会是：

这个词好高级，我得去背一下

而会变成：

它到底是在讲模型能力？上下文管理？工具接入？还是 Agent 编排？

这时候，你才算真正拥有了“理解 AI”的框架。

十三、最后，用一句话记住每个概念

为了方便收藏和复习，最后我们再把每个概念压缩成一句话。

LLM：大语言模型，是整个 AI 系统的核心推理引擎。
Token：模型处理文本的最基本单位，不等于“词”。
Context：模型本轮任务接收到的全部信息总和，相当于临时工作记忆。
Context Window：Context 最多能装下多少 Token 的容量上限。
Prompt：用户或系统当前给模型下达的具体任务、问题或规则。

User Prompt：用户直接输入给模型的话。

System Prompt：开发者在后台配置给模型的人设和行为规则。
Tool：模型用来感知和影响外部环境的函数接口。
MCP：统一工具接入格式的标准协议，降低跨平台适配成本。
Agent：能够自主规划、自主调用工具、持续执行直到完成任务的系统。
Agent Skill：写给 Agent 看的说明文档，用来规定步骤、规则、格式和示例。

十四、结尾

如果你能把这几个概念真正吃透，你以后再看 AI 领域的新产品、新技术、新趋势，就不会再被表面的名词轰炸带着跑了。因为你已经知道：

LLM 是核心引擎
Token 是最小颗粒
Context 是临时记忆
Context Window 是容量限制
Prompt 是任务入口
Tool 是连接外部世界的手和眼
MCP 是统一接头标准
Agent 是任务执行者
Agent Skill 是操作说明书

说到底，今天大多数 AI 产品的花样再多，底层也离不开这一套结构。理解这套结构，比追逐每一个新名词更重要。因为当你真正看见骨架之后，那些五花八门的外壳，就不再那么容易把你绕晕了。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI修炼记3-RAG

AtomGit开源社区

在海量素材里3秒找到想要的镜头？易元AI语义检索也太恐怖了

简单来说，不用再死记复杂的文件名，不用逐段翻看视频素材，只要输入你想要的画面文字描述，系统就能瞬间从海量素材里，精准定位到对应的镜头。易元AI语义检索，本质是帮团队搭建高效的镜头调用能力，让现有素材不再沉睡，实现快速识别、精准匹配、反复复用，直接带动团队整体产能提升，也让后续的批量剪辑、智能匹配、版本生成真正落地运行。语义检索解决的，正是素材资产化的第一步，彻底盘活沉睡的素材库：过往的产品镜头能适

AtomGit开源社区

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

蒙特卡洛方法是一种基于随机抽样的数值计算方法，通过多次随机抽样来估计系统的行为，从而得到系统的统计性质。在风光模型中，蒙特卡洛方法可以用来模拟风速、风向和太阳光照的变化，进而评估风力和太阳能系统在不同条件下的性能。

AtomGit开源社区

所有评论(0)

查看更多评论

追梦

@DreamMeng

已为社区贡献5条内容

从 LLM 到 Agent Skill，一篇文章带你打通底层逻辑！

追梦

一、先从最底层开始：LLM

1. 什么是 LLM

LLM 全称 Large Language Model，翻译成中文就是：

2. 现在的大模型，几乎都站在 Transformer 之上

3. Transformer 是谁提出来的？

4. 为什么 GPT 系列会成为一个时代节点？

5. 如今已经不是 OpenAI 一家独大

6. LLM 的本质，其实非常朴素

举个最简单的例子

7. 为什么 AI 总是一个字一个词往外冒？

二、Token：大模型真正处理的，不是“词”，而是 Token

1. 为什么模型不能直接处理文字？

2. Tokenizer 是干什么的？

1）编码 （Encode）

2）解码 （Decode）

3. Token 是怎么来的？

第一步：切分

第二步：映射

4. 模型输出时也是一样的

5. 很多人会误会：Token 不就是词吗？

6. 为什么 Token 不等于词？

7. 英文是不是就一定一个单词一个 Token？

8. Token 的一个实用理解方式

9. Token 和字数怎么换算？

三、Context：大模型的“临时记忆体”

1. 模型本身并不会天然“记住”你

2. 这就引出了 Context

3. Context 里面通常包含什么？

4. 为什么可以把 Context 理解成“临时记忆”？

四、Context Window：上下文窗口

1. 它的定义非常直接

2. 为什么 Context Window 很重要？

3. 100 万 Token 到底是什么概念？

4. 但窗口再大，也不代表你应该什么都往里塞

第一，成本会失控

第二，信息噪音会增大

5. 这就是 RAG 的意义

五、Prompt：你给模型下达的任务指令

1. 最简单的 Prompt，就是你说的话

2. 为什么 Prompt 很重要？

3. Prompt Engineering，到底在干什么？

六、Prompt 还分两类：User Prompt 和 System Prompt

1）User Prompt：用户提示词

2）System Prompt：系统提示词

一个特别经典的例子：数学辅导机器人

System Prompt

User Prompt

七、Tool：AI 为什么突然“能查天气、能读文件、能执行代码”了？

1. 为什么大模型需要 Tool？

2. Tool 的本质是什么？

Tool 调用时，系统里到底发生了什么？这里通常会涉及四个角色：

3. 一个完整例子：查天气

第一步：用户把问题发给平台

第二步：平台把问题和“可用工具列表”一起发给模型

第三步：模型判断是否需要调用工具

第四步：模型输出工具调用指令

第五步：平台真正执行工具

第六步：平台拿到工具返回结果

第七步：平台把这个结果再发给模型

第八步：平台把最终结果返回给用户

4. 一个特别容易搞错的点

5. 所以，Tool 的意义是什么？

八、MCP：为什么 AI 工具也需要一个“Type-C 接口”？

1. MCP 是什么？

2. 为什么会需要 MCP？

3. MCP 想解决的，就是“重复适配”问题

4. 用一个特别形象的类比来理解

5. MCP 的价值，不在“变聪明”，而在“变顺畅”

九、Agent：从“回答问题”，走向“完成任务”

1. 一个简单问题，和一个复杂任务的区别

2. 从模型视角看，Agent 在干什么？

第一步：

第二步：

第三步：

第四步：

2. Agent 的定义

3. Agent 的关键不在“能回答”，而在“能持续行动”

4. 为什么 Agent 这两年这么火？

1）编码（Encode）

2）解码（Decode）