从 LLM 到 Agent Skill

在这里插入图片描述

前言

AI 圈子里每天都在冒新名词:LLM、Token、Context、Prompt、Tool、MCP、Agent、Agent Skill……

把这些概念一个一个拆开、讲清楚。


概念全景:从底层往上搭

LLM(大模型)
  ↓
Token → Context → Context Window
  ↓
Prompt(User / System)→ RAG
  ↓
Tool → MCP
  ↓
Agent → Agent Skill

1. LLM:一切的核心

LLM(Large Language Model,大语言模型)是所有 AI 技术的核心引擎。

  • 现代大模型基本都基于 Transformer 架构
  • 2017 年 Google 发表论文 Attention Is All You Need,发明了这套架构
  • 2022 年底 GPT-3.5 是第一个真正达到可用级别的大模型
  • 2023 年 3 月 GPT-4 把能力天花板拉到新高度
  • 如今 Claude、Gemini 等也在各自领域与 GPT 同台竞技

大模型怎么工作?文字接龙

大模型本质上就是一个文字接龙游戏

假设你问:「的视频怎么样?」

  1. 模型预测下一个词,比如「特别」
  2. 把「特别」追加到输入后面,再预测下一个词「得」
  3. 再把「得」塞回去,预测「棒」
  4. 直到输出结束符,完整回答:特别得棒

所以大模型会一个词一个词地输出——因为它就是这么运作的。

实际上,大模型是一个庞大的数学函数,输入输出都是数字。人类和大模型之间需要一个「中间人」:Tokenizer


2. Token:大模型处理文本的最小单位

Tokenizer 负责两件事:

环节 作用
编码 文字 → 数字(Token ID)
解码 数字 → 文字

编码分两步:

  1. 切分:把文本拆成最小片段,叫 Token
  2. 映射:每个 Token 对应一个 Token ID

例如「马克的视频怎么样」可能被切成 4 个 Token:马克 / 的 / 视频 / 怎么样。

Token ≠ 词

Token 和词没有一一对应关系

  • 「工作坊」可能被拆成「工作」+「坊」
  • 「程序员」可能被拆成「程序」+「员」
  • 英文 helpful 可能被拆成 help + ful
  • 某些特殊字符甚至需要 3 个 Token 表示

经验值:

  • 1 Token ≈ 0.75 个英文单词
  • 1 Token ≈ 1.5~2 个汉字
  • 100 万 Token ≈ 150 万汉字(整套《哈利·波特》都能装下)

3. Context 与 Context Window:大模型的「临时记忆」

大模型本质上只是数学函数,并没有人类意义上的记忆

那为什么聊天时它能记住你说过的话?

因为每次发消息,程序会把你之前的整段对话历史一起发过去。模型每次看到的都是完整对话,所以「记得住」。

Context(上下文)

Context = 大模型每次处理任务时接收到的信息总和,包括:

  • 用户问题
  • 对话历史
  • 模型正在输出的 Token
  • 工具列表
  • System Prompt
  • ……

可以把它看成大模型的临时记忆体

Context Window(上下文窗口)

Context Window = Context 能容纳的最大 Token 数量

模型 Context Window
GPT-5.4 105 万
Gemini 3.1 Pro 100 万
Claude Opus 4.6 100 万

RAG:上下文装不下怎么办?

假如你有上千页产品手册,不可能整本扔给大模型——成本高,也可能撑爆窗口。

RAG(Retrieval-Augmented Generation)的做法:

  1. 从手册中检索与用户问题最匹配的几个片段
  2. 只把这几个片段发给大模型
  3. 让模型基于片段回答

4. Prompt:给大模型的指令

Prompt(提示词)= 你给大模型的具体问题或指令。

  • 「帮我写一首诗」→ 这就是 Prompt
  • 别把它想得多神秘,就是问题或指令

写好 Prompt 很重要

模糊的 Prompt → 输出不可控(古诗、现代诗、打油诗都可能)。

清晰的 Prompt 示例:

请帮我写一首五言绝句,主题是秋天的落叶,风格要悲凉一点。

这就是 Prompt Engineering(提示词工程)——研究怎么把话说清楚。不过随着模型能力增强,对 Prompt 的依赖在降低。

两种 Prompt

类型 谁写的 作用
User Prompt 用户 具体任务 / 问题
System Prompt 开发者(后台) 人设 + 做事规则,用户看不到

例子:数学辅导机器人

  • System Prompt(后台):「你是耐心的数学老师,不要直接给答案,要引导学生思考。」
  • User Prompt(用户输入):「3 加 5 等于几?」

有 System Prompt 约束,模型会引导思考;没有的话,可能直接回答「8」。


5. Tool:大模型的「外挂能力」

大模型的弱点:无法感知外界

你问「今天上海天气怎么样?」,它只能说「抱歉,我无法获取实时信息」——因为它只是文字接龙,没法查天气网站。

Tool = 函数

Tool(工具)本质上就是一个函数:输入 → 处理 → 输出。

天气查询工具:输入城市和日期 → 调用气象局接口 → 返回天气信息。

完整调用流程

涉及四个角色:用户、大模型、工具、平台

角色 职责
用户 提问
大模型 ① 选择工具并生成调用参数 ② 归纳工具返回结果
工具 执行具体动作(查天气等)
平台 传话筒:转发消息、调用工具、串联流程

关键认知:模型不能自己调用工具。

它只能输出一段文本,告诉平台「我想调用某某工具,参数是……」。真正执行调用的是平台。


6. MCP:工具接入的统一标准

问题来了:ChatGPT、Claude、Gemini 各有一套工具接入规范,同一个工具要写 3 遍

MCP(Model Context Protocol,模型上下文协议)就是为了解决这个问题——统一的工具接入标准

类比:所有手机都用 Type-C,开发者按 MCP 规范写一次工具,所有支持 MCP 的平台都能用。


7. Agent:能自主规划的系统

有了 Tool + MCP,大模型能查天气了。但复杂任务需要多次工具调用

例子:「今天天气怎么样?如果下雨,帮我查附近卖雨伞的店。」

Agent 的思考链:

  1. 调用定位工具 → 获取经纬度
  2. 调用天气工具 → 发现下雨
  3. 调用店铺工具 → 搜索雨伞店
  4. 综合信息,给出最终答案

这种能够自主规划、自主调用工具、持续工作直到完成任务的系统,就是 Agent

代表产品:Claude Code、Codex、Gemini CLI 等。经典构建模式包括 ReAct、Plan and Execute 等。


8. Agent Skill:给 Agent 的说明文档

Agent 很强,但高频使用会遇到痛点:

每次出门前查天气、提醒带东西——你有自己的习惯(下雨带伞、风大穿外套、手机必带),还有输出格式要求。
如果每次都要在 Prompt 里塞一大段规则和示例,太反人类了。

Agent Skill 是什么?

Agent Skill = 提前写好、塞给 Agent 的一份说明文档(本质是 Markdown)。

以「出门清单」为例,结构分两层:

元数据层(封面)
字段 说明
Name 技能名称,如 go-out-checklist
Description 技能描述
指令层(正文)

格式自由,把规则说清楚即可,包括:

  • 目标
  • 执行步骤(先定位 → 再查天气 → 按规则整理物品)
  • 判断规则(下雨带伞、UV 高带帽子……)
  • 输出格式
  • 示例

存放规范(以 Claude Code 为例)

路径:~/.claude/skills/

  1. 新建文件夹,名称必须与 Skill 的 Name 一致(如 go-out-checklist
  2. 文件夹内新建 SKILL.md(必须大写 SKILL,不能随便起名)

启动时 Claude Code 读取元数据;只有当用户问题与 Skill 相关时,才读取完整指令层——这就是渐进式披露,节省 Token。

用户问「我要出门了,告诉我带什么」,Agent 自动匹配 Skill,按步骤调用工具,按指定格式输出。


9. 概念总结

概念 一句话
LLM 大语言模型,AI 的核心引擎
Token 大模型处理文本的最小单位
Context 每次任务接收的信息总和(临时记忆)
Context Window Context 最多能装多少 Token
Prompt 给模型的指令(User / System)
Tool 模型可调用的外部函数
MCP 工具接入的统一协议
Agent 自主规划、调用工具直到完成任务的系统
Agent Skill 给 Agent 看的步骤与规则文档

写在最后

理解了这套体系,再看 Claude Code、Codex、Cowork、OpenClaw 等各种新产品,本质都在这个框架下运作。

AI 不是魔法,是一层一层搭起来的工程概念。从 LLM 到 Agent Skill,每一层解决一个具体问题:

  • Token 解决「怎么表示文本」
  • Context 解决「怎么记住对话」
  • Tool 解决「怎么连接外界」
  • MCP 解决「怎么统一接入」
  • Agent 解决「怎么自主完成复杂任务」
  • Agent Skill 解决「怎么复用个人规则和流程」

出门清单 Agent Skill 示例结构

---
name: go-out-checklist
description: 根据定位和天气,生成出门携带物品清单
---

## 目标
根据用户位置和天气,给出出门携带建议。

## 执行步骤
1. 调用定位工具获取经纬度
2. 调用天气工具获取天气信息
3. 按判断规则整理携带物品
4. 按输出格式返回结果

## 判断规则
- 下雨 → 带伞
- UV 高 → 带帽子
- 空气差 → 带口罩
- 风大 → 穿防风外套
- 无论如何 → 手机必带

## 输出格式
第一段:一句话总结
第二段:物品清单(列表)

## 示例
(用户问题 + 工具返回 + 期望输出)

本文由 [youtube_download_summary] 工具基于视频字幕 subtitle_cleaned.txt 整理生成。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐