从LLM到Agent Skill学习笔记

weixin_44263687

632人浏览 · 2026-03-25 16:03:01

weixin_44263687 · 2026-03-25 16:03:01 发布

https://www.bilibili.com/video/BV1E7wtzaEdq/?spm_id_from=333.337.search-card.all.click&vd_source=2c2cd5dba4b841da37f7979f39a53b5b

🧠 AI核心概念笔记

一、LLM：一切的起点

LLM（大语言模型）本质是什么？

它不是“理解语言”的系统，而是一个：
👉 根据已有内容，预测下一个Token的概率模型

你可以把它理解成一个不断进行“高级文字接龙”的机器。

核心特点：

本质是一个数学函数（矩阵计算）
输入输出都是数字（Token ID）
基于 Transformer 架构（2017年提出）

工作流程（极简理解）：

输入一句话
预测下一个Token
把结果拼回输入
持续循环直到结束

👉 所有回答，都是一个Token一个Token生成的

二、Token：模型的“语言单位”

什么是Token？

👉 模型处理文本的最小单位

但注意：

❌ 不等于“一个字”
❌ 不等于“一个词”

Token是怎么来的？（Tokenizer做的事）

切分文本 → Token
转换成数字 → Token ID

关键认知：

Token ≠ 词（没有固定对应关系）
一个词可能被拆成多个Token
一个符号甚至可能占多个Token

经验换算：

1 Token ≈ 1.5~2个汉字
1 Token ≈ 0.75个英文单词

三、Context：模型的“临时记忆”

什么是Context？

👉 模型当前一次处理时看到的全部信息

包括：

用户当前问题
历史对话
System Prompt
工具信息
已生成内容

关键理解：

模型“记住你说过的话”，其实是因为：

👉 每次都把历史对话重新发给它

它没有真正的记忆，只是“每次都带着全部上下文重新计算”。

四、Context Window：记忆的容量上限

定义：

👉 一次最多能处理多少Token

影响：

小 → 容易忘前面内容
大 → 更连贯，但更耗成本

实际问题：
👉 文档太长怎么办？

解决方案：RAG（检索增强）

不把全文塞进去
只取“相关片段”

👉 本质就是：
“搜索 + 拼接上下文”

五、Prompt：你如何控制AI

什么是Prompt？

👉 你给模型的指令或问题

两种类型：

1️⃣ System Prompt（系统提示词）

定义AI的角色、规则、风格
例如：老师 / 面试官 / 严谨专家

👉 决定：AI是谁

2️⃣ User Prompt（用户提示词）

用户输入的具体问题

👉 决定：AI做什么

核心原则：

越清晰 → 输出越准
越具体 → 偏差越小

👉 本质：
Prompt = 输出质量的控制器

六、Tool：让AI连接现实世界

什么是Tool？

👉 本质就是：函数（Function）

解决的问题：
模型本身无法：

获取实时数据
调用外部系统
做精确计算

完整流程（重点理解）：

用户提问
平台把问题 + 工具列表发给模型
模型判断需要调用工具
模型输出“调用指令”
平台执行工具
返回结果
模型整理成自然语言输出

关键点：
👉 模型不会真的调用工具

而是：
它只“说要用”，真正执行的是平台

七、MCP：工具的统一标准

什么是MCP？

👉 统一工具接入协议

解决的问题：

不同平台接口不统一
一个工具要重复开发

作用：

一次开发
多平台复用

👉 可以理解为：
AI工具世界的“Type-C接口”

八、Agent：从“回答问题”到“完成任务”

什么是Agent？

👉 能自主完成任务的AI系统

核心能力：

理解目标
拆解步骤
调用多个工具
持续执行直到完成

和普通模型的区别：

普通LLM：只回答
Agent：会“干活”

典型流程：
例如：
查询天气 + 找雨伞店

执行过程：

获取位置
查询天气
判断是否下雨
查找商店
输出结果

👉 本质是：
多步骤决策 + 工具链执行

九、Agent Skill：让Agent“更像人”

什么是Agent Skill？

👉 给Agent的一份操作说明书

本质：

固定规则
固定流程
固定输出格式

通常包含：

目标
执行步骤
判断规则
输出格式
示例

解决的问题：
👉 避免每次都写一大段Prompt

一句话理解：
Agent Skill = 可复用的高级Prompt模板 + 行为规范

🔚 总体逻辑（最终理解）

从底层到应用：

LLM → 负责“预测Token”
Token → 最小处理单位
Context → 输入的全部信息
Prompt → 控制行为
Tool → 扩展能力
MCP → 标准化工具接入
Agent → 自动执行任务
Agent Skill → 固化能力

🧩 一句话总结

大模型本质是基于Token预测的概率模型，通过上下文拼接实现“伪记忆”，用Prompt控制行为，通过Tool连接外部能力，在MCP标准下扩展生态，最终演化为可自主执行任务的Agent系统。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

视频水印处理三大场景总结，多款轻量化工具实测分享

AtomGit开源社区

微信与企业微信统一会话智能运营工作台的构建与应用实践

AtomGit开源社区

认知篇：AI二阶段爆发：多模态Agent，重塑测试工作全流程

L2 基础大模型：被动碎片化问答，无规范、无记忆、不可复用，仅做基础减负；L3 高阶工程化模型：依托结构化提示词、Skills封装、上下文工程，实现标准化稳定协作，是人工主导的高阶天花板，是Agent的必经之路；：兼容所有L3能力，叠加自主规划、工具调度、自我治理，实现流程全自动闭环，重构测试工作模式。未来测试行业的核心差距，不再是基础执行能力，而是AI工程化落地能力与质量把控思维。通用工具可复制