从 LLM 到 Agent Skill

草明

295人浏览 · 2026-06-12 11:50:36

草明 · 2026-06-12 11:50:36 发布

从 LLM 到 Agent Skill

在这里插入图片描述

前言

AI 圈子里每天都在冒新名词：LLM、Token、Context、Prompt、Tool、MCP、Agent、Agent Skill……

把这些概念一个一个拆开、讲清楚。

概念全景：从底层往上搭

LLM（大模型）
  ↓
Token → Context → Context Window
  ↓
Prompt（User / System）→ RAG
  ↓
Tool → MCP
  ↓
Agent → Agent Skill

1. LLM：一切的核心

LLM（Large Language Model，大语言模型）是所有 AI 技术的核心引擎。

现代大模型基本都基于 Transformer 架构
2017 年 Google 发表论文 Attention Is All You Need，发明了这套架构
2022 年底 GPT-3.5 是第一个真正达到可用级别的大模型
2023 年 3 月 GPT-4 把能力天花板拉到新高度
如今 Claude、Gemini 等也在各自领域与 GPT 同台竞技

大模型怎么工作？文字接龙

大模型本质上就是一个文字接龙游戏。

假设你问：「的视频怎么样？」

模型预测下一个词，比如「特别」
把「特别」追加到输入后面，再预测下一个词「得」
再把「得」塞回去，预测「棒」
直到输出结束符，完整回答：特别得棒

所以大模型会一个词一个词地输出——因为它就是这么运作的。

实际上，大模型是一个庞大的数学函数，输入输出都是数字。人类和大模型之间需要一个「中间人」：Tokenizer。

2. Token：大模型处理文本的最小单位

Tokenizer 负责两件事：

环节	作用
编码	文字 → 数字（Token ID）
解码	数字 → 文字

编码分两步：

切分：把文本拆成最小片段，叫 Token
映射：每个 Token 对应一个 Token ID

例如「马克的视频怎么样」可能被切成 4 个 Token：马克 / 的 / 视频 / 怎么样。

Token ≠ 词

Token 和词没有一一对应关系：

「工作坊」可能被拆成「工作」+「坊」
「程序员」可能被拆成「程序」+「员」
英文 helpful 可能被拆成 help + ful
某些特殊字符甚至需要 3 个 Token 表示

经验值：

1 Token ≈ 0.75 个英文单词
1 Token ≈ 1.5～2 个汉字
100 万 Token ≈ 150 万汉字（整套《哈利·波特》都能装下）

3. Context 与 Context Window：大模型的「临时记忆」

大模型本质上只是数学函数，并没有人类意义上的记忆。

那为什么聊天时它能记住你说过的话？

因为每次发消息，程序会把你之前的整段对话历史一起发过去。模型每次看到的都是完整对话，所以「记得住」。

Context（上下文）

Context = 大模型每次处理任务时接收到的信息总和，包括：

用户问题
对话历史
模型正在输出的 Token
工具列表
System Prompt
……

可以把它看成大模型的临时记忆体。

Context Window（上下文窗口）

Context Window = Context 能容纳的最大 Token 数量。

模型	Context Window
GPT-5.4	105 万
Gemini 3.1 Pro	100 万
Claude Opus 4.6	100 万

RAG：上下文装不下怎么办？

假如你有上千页产品手册，不可能整本扔给大模型——成本高，也可能撑爆窗口。

RAG（Retrieval-Augmented Generation）的做法：

从手册中检索与用户问题最匹配的几个片段
只把这几个片段发给大模型
让模型基于片段回答

4. Prompt：给大模型的指令

Prompt（提示词）= 你给大模型的具体问题或指令。

「帮我写一首诗」→ 这就是 Prompt
别把它想得多神秘，就是问题或指令

写好 Prompt 很重要

模糊的 Prompt → 输出不可控（古诗、现代诗、打油诗都可能）。

清晰的 Prompt 示例：

请帮我写一首五言绝句，主题是秋天的落叶，风格要悲凉一点。

这就是 Prompt Engineering（提示词工程）——研究怎么把话说清楚。不过随着模型能力增强，对 Prompt 的依赖在降低。

两种 Prompt

类型	谁写的	作用
User Prompt	用户	具体任务 / 问题
System Prompt	开发者（后台）	人设 + 做事规则，用户看不到

例子：数学辅导机器人

System Prompt（后台）：「你是耐心的数学老师，不要直接给答案，要引导学生思考。」
User Prompt（用户输入）：「3 加 5 等于几？」

有 System Prompt 约束，模型会引导思考；没有的话，可能直接回答「8」。

5. Tool：大模型的「外挂能力」

大模型的弱点：无法感知外界。

你问「今天上海天气怎么样？」，它只能说「抱歉，我无法获取实时信息」——因为它只是文字接龙，没法查天气网站。

Tool = 函数

Tool（工具）本质上就是一个函数：输入 → 处理 → 输出。

天气查询工具：输入城市和日期 → 调用气象局接口 → 返回天气信息。

完整调用流程

涉及四个角色：用户、大模型、工具、平台

角色	职责
用户	提问
大模型	① 选择工具并生成调用参数 ② 归纳工具返回结果
工具	执行具体动作（查天气等）
平台	传话筒：转发消息、调用工具、串联流程

关键认知：模型不能自己调用工具。

它只能输出一段文本，告诉平台「我想调用某某工具，参数是……」。真正执行调用的是平台。

6. MCP：工具接入的统一标准

问题来了：ChatGPT、Claude、Gemini 各有一套工具接入规范，同一个工具要写 3 遍。

MCP（Model Context Protocol，模型上下文协议）就是为了解决这个问题——统一的工具接入标准。

类比：所有手机都用 Type-C，开发者按 MCP 规范写一次工具，所有支持 MCP 的平台都能用。

7. Agent：能自主规划的系统

有了 Tool + MCP，大模型能查天气了。但复杂任务需要多次工具调用。

例子：「今天天气怎么样？如果下雨，帮我查附近卖雨伞的店。」

Agent 的思考链：

调用定位工具 → 获取经纬度
调用天气工具 → 发现下雨
调用店铺工具 → 搜索雨伞店
综合信息，给出最终答案

这种能够自主规划、自主调用工具、持续工作直到完成任务的系统，就是 Agent。

代表产品：Claude Code、Codex、Gemini CLI 等。经典构建模式包括 ReAct、Plan and Execute 等。

8. Agent Skill：给 Agent 的说明文档

Agent 很强，但高频使用会遇到痛点：

每次出门前查天气、提醒带东西——你有自己的习惯（下雨带伞、风大穿外套、手机必带），还有输出格式要求。
如果每次都要在 Prompt 里塞一大段规则和示例，太反人类了。

Agent Skill 是什么？

Agent Skill = 提前写好、塞给 Agent 的一份说明文档（本质是 Markdown）。

以「出门清单」为例，结构分两层：

元数据层（封面）

字段	说明
Name	技能名称，如 `go-out-checklist`
Description	技能描述

指令层（正文）

格式自由，把规则说清楚即可，包括：

目标
执行步骤（先定位 → 再查天气 → 按规则整理物品）
判断规则（下雨带伞、UV 高带帽子……）
输出格式
示例

存放规范（以 Claude Code 为例）

路径：~/.claude/skills/

新建文件夹，名称必须与 Skill 的 Name 一致（如 go-out-checklist）
文件夹内新建 SKILL.md（必须大写 SKILL，不能随便起名）

启动时 Claude Code 读取元数据；只有当用户问题与 Skill 相关时，才读取完整指令层——这就是渐进式披露，节省 Token。

用户问「我要出门了，告诉我带什么」，Agent 自动匹配 Skill，按步骤调用工具，按指定格式输出。

9. 概念总结

概念	一句话
LLM	大语言模型，AI 的核心引擎
Token	大模型处理文本的最小单位
Context	每次任务接收的信息总和（临时记忆）
Context Window	Context 最多能装多少 Token
Prompt	给模型的指令（User / System）
Tool	模型可调用的外部函数
MCP	工具接入的统一协议
Agent	自主规划、调用工具直到完成任务的系统
Agent Skill	给 Agent 看的步骤与规则文档

写在最后

理解了这套体系，再看 Claude Code、Codex、Cowork、OpenClaw 等各种新产品，本质都在这个框架下运作。

AI 不是魔法，是一层一层搭起来的工程概念。从 LLM 到 Agent Skill，每一层解决一个具体问题：

Token 解决「怎么表示文本」
Context 解决「怎么记住对话」
Tool 解决「怎么连接外界」
MCP 解决「怎么统一接入」
Agent 解决「怎么自主完成复杂任务」
Agent Skill 解决「怎么复用个人规则和流程」

出门清单 Agent Skill 示例结构

---
name: go-out-checklist
description: 根据定位和天气，生成出门携带物品清单
---

## 目标
根据用户位置和天气，给出出门携带建议。

## 执行步骤
1. 调用定位工具获取经纬度
2. 调用天气工具获取天气信息
3. 按判断规则整理携带物品
4. 按输出格式返回结果

## 判断规则
- 下雨 → 带伞
- UV 高 → 带帽子
- 空气差 → 带口罩
- 风大 → 穿防风外套
- 无论如何 → 手机必带

## 输出格式
第一段：一句话总结
第二段：物品清单（列表）

## 示例
（用户问题 + 工具返回 + 期望输出）

本文由 [youtube_download_summary] 工具基于视频字幕 subtitle_cleaned.txt 整理生成。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

大厂 Java 面试实录：从音视频内容社区到 AI RAG 的全链路技术设计

通过一个互联网大厂 Java 面试故事场景，让读者在轻松对话中理解音视频与内容社区场景下的微服务架构设计、Spring Boot 与 Spring Cloud 技术栈选型、缓存与消息队列、监控与日志体系、AI RAG 能力接入等关键知识点，小白也能看懂并入门。

AtomGit开源社区

Faust：把 Kafka Streams 搬到 Python 里

Faust 是 Robinhood 开源的 Python 流处理库（6.8k Star），将 Kafka Streams 功能引入 Python 生态。它无需 DSL，基于 async/await 语法，支持静态类型检查，通过装饰器定义流处理逻辑。Faust 提供分布式 K/V 存储和状态管理，支持窗口聚合与故障恢复，单核每秒可处理数万事件，天然支持水平扩展。与主流 Python 库（如 NumP