从LLM到AgentSkill学习笔记

乄卝⑦

367人浏览 · 2026-05-29 14:08:14

乄卝⑦ · 2026-05-29 14:08:14 发布

📘 从 LLM 到 Agent Skill — AI 核心概念底层逻辑笔记

来源：B站 @马克的技术工作坊《从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！》
整理视角：工程视角，自下而上串联 AI 核心概念

一、概念层级总览

LLM（大语言模型/引擎）
  └─ Token（处理最小单位）
      └─ Context / Context Window（记忆空间）
          └─ Prompt（交互指令：System + User）
              └─ Tool（外部能力扩展）
                  └─ MCP（工具标准化协议）
                      └─ Agent（自主规划+执行）
                          └─ Agent Skill（可复用任务说明书）

二、逐层拆解核心概念

1️⃣ LLM（Large Language Model · 大语言模型）

本质：基于 Transformer 架构的概率预测机器——“文字接龙”，预测下一个 Token 的概率分布。
作用：AI 系统的核心"大脑"，负责理解、推理、生成文本，不能直接执行外部操作。
局限：只会产生文本，无联网、无计算、无文件操作能力。

2️⃣ Token（词元）

定义：LLM 处理文本的最小离散单位，通过 Tokenizer（通常用 BPE 算法）将文字编码为 Token ID 再做矩阵运算。
特点：
- 英文 ≈ 3/4 个单词；中文 ≈ 1~2 个汉字（因模型而异）
- 与"词"非一一对应关系
重要性：模型输入/输出长度限制、计费均按 Token 计算。

3️⃣ Context & Context Window（上下文 / 上下文窗口）

Context（上下文）：模型本轮对话中"看到"的全部信息总和 = System Prompt + 历史对话 + User Prompt + 工具返回结果。相当于模型的临时记忆。
Context Window（上下文窗口）：Context 能容纳的最大 Token 数（如 8K / 128K / 1M+），超限需截断或做摘要/RAG。
RAG（提及）：从外部文档检索相关内容塞入 Context，解决超长文档问题和成本问题。

4️⃣ Prompt（提示词）

User Prompt：用户直接输入的问题或指令。
System Prompt：开发者预设的"人设/规则/输出格式"，在对话开始时注入，控制模型行为风格。
要点：Prompt 质量直接决定输出质量——清晰、给背景、给示例（Few-shot）、指定格式效果更好。

5️⃣ Tool（工具 / Function Calling）

本质：外部函数/API（查天气、搜网页、执行代码、读写文件等）。
机制：LLM 不亲自执行，而是输出结构化调用指令（JSON）→ 宿主程序执行 → 结果回传给 LLM → LLM 生成最终回答。
意义：突破 LLM 只能"说话"的限制，使其能感知和影响外部世界。

6️⃣ MCP（Model Context Protocol · 模型上下文协议）

本质：Anthropic 提出的标准化工具连接协议，统一 LLM 客户端与外部数据源/工具的对接方式。
类比：AI 工具生态的 USB / Type-C 接口——写一次 Tool Server，任意支持 MCP 的 Client（Claude Desktop、Cursor 等）即插即用。
价值：消除各家私有 Tool 格式差异，降低集成成本，促进工具复用与生态繁荣。

7️⃣ Agent（智能体）

定义：以 LLM 为核心，具备 规划(Planning) + 记忆(Memory) + 工具使用(Tool Use) + 反思 能力的自主系统。

与普通对话区别：

维度	普通对话(LLM)	Agent
交互	一问一答	多轮迭代、自主循环
行为	被动响应	主动拆解任务、选工具
能力	仅生成文本	可操作外部系统

典型流程：接收目标 → 理解(LLM) → 规划步骤 → 调 Tool/MCP → 获结果 → 再推理 → 直到任务完成。

8️⃣ Agent Skill（智能体技能）

本质：给 Agent 看的 Markdown 说明文档（通常命名为 skill.md），封装某类任务的做法。
结构分两层：
- 元数据层（--- front matter）：名称、描述、触发条件——Agent 启动时只读这部分
- 指令层（正文）：详细步骤、规则、示例——仅在任务匹配时才加载（渐进式披露，省 Token）
作用：把 Agent 的"经验"沉淀为可复用、可分享、可版本管理的技能包（如周报生成 Skill、代码审查 Skill）。

三、一句话串联理解

LLM 是引擎，Token 是燃料，Context 是工作台，Prompt 是指令，Tool 是手脚，MCP 是通用接口，Agent 是把它们串起来的决策者，Agent Skill 是它的专业操作手册。

四、推荐学习路径

搞懂 LLM + Token + Context Window 基本概念
练习 Prompt Engineering（System/User Prompt）
了解 Tool Calling 与 MCP 协议
用 LangChain / AutoGen / CrewAI 搭建简单 Agent
为自己常用任务编写 Agent Skill（Markdown 格式）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性