视频原创马克的技术工作坊

https://www.bilibili.com/video/BV1E7wtzaEdq/?spm_id_from=333.337.search-card.all.click&vd_source=2c2cd5dba4b841da37f7979f39a53b5b

🧠 AI核心概念笔记


一、LLM:一切的起点

LLM(大语言模型)本质是什么?

它不是“理解语言”的系统,而是一个:
👉 根据已有内容,预测下一个Token的概率模型

你可以把它理解成一个不断进行“高级文字接龙”的机器。


核心特点:

  • 本质是一个数学函数(矩阵计算)

  • 输入输出都是数字(Token ID)

  • 基于 Transformer 架构(2017年提出)


工作流程(极简理解):

  1. 输入一句话

  2. 预测下一个Token

  3. 把结果拼回输入

  4. 持续循环直到结束

👉 所有回答,都是一个Token一个Token生成的


二、Token:模型的“语言单位”

什么是Token?

👉 模型处理文本的最小单位

但注意:

  • ❌ 不等于“一个字”

  • ❌ 不等于“一个词”


Token是怎么来的?(Tokenizer做的事)

  1. 切分文本 → Token

  2. 转换成数字 → Token ID


关键认知:

  • Token ≠ 词(没有固定对应关系)

  • 一个词可能被拆成多个Token

  • 一个符号甚至可能占多个Token


经验换算:

  • 1 Token ≈ 1.5~2个汉字

  • 1 Token ≈ 0.75个英文单词


三、Context:模型的“临时记忆”

什么是Context?

👉 模型当前一次处理时看到的全部信息

包括:

  • 用户当前问题

  • 历史对话

  • System Prompt

  • 工具信息

  • 已生成内容


关键理解:

模型“记住你说过的话”,其实是因为:

👉 每次都把历史对话重新发给它

它没有真正的记忆,只是“每次都带着全部上下文重新计算”。


四、Context Window:记忆的容量上限

定义:

👉 一次最多能处理多少Token


影响:

  • 小 → 容易忘前面内容

  • 大 → 更连贯,但更耗成本


实际问题:
👉 文档太长怎么办?

解决方案:RAG(检索增强)

  • 不把全文塞进去

  • 只取“相关片段”

👉 本质就是:
“搜索 + 拼接上下文”


五、Prompt:你如何控制AI

什么是Prompt?

👉 你给模型的指令或问题


两种类型:

1️⃣ System Prompt(系统提示词)

  • 定义AI的角色、规则、风格

  • 例如:老师 / 面试官 / 严谨专家

👉 决定:AI是谁


2️⃣ User Prompt(用户提示词)

  • 用户输入的具体问题

👉 决定:AI做什么


核心原则:

  • 越清晰 → 输出越准

  • 越具体 → 偏差越小

👉 本质:
Prompt = 输出质量的控制器


六、Tool:让AI连接现实世界

什么是Tool?

👉 本质就是:函数(Function)


解决的问题:
模型本身无法:

  • 获取实时数据

  • 调用外部系统

  • 做精确计算


完整流程(重点理解):

  1. 用户提问

  2. 平台把问题 + 工具列表发给模型

  3. 模型判断需要调用工具

  4. 模型输出“调用指令”

  5. 平台执行工具

  6. 返回结果

  7. 模型整理成自然语言输出


关键点:
👉 模型不会真的调用工具

而是:
它只“说要用”,真正执行的是平台


七、MCP:工具的统一标准

什么是MCP?

👉 统一工具接入协议


解决的问题:

  • 不同平台接口不统一

  • 一个工具要重复开发


作用:

  • 一次开发

  • 多平台复用

👉 可以理解为:
AI工具世界的“Type-C接口”


八、Agent:从“回答问题”到“完成任务”

什么是Agent?

👉 能自主完成任务的AI系统


核心能力:

  • 理解目标

  • 拆解步骤

  • 调用多个工具

  • 持续执行直到完成


和普通模型的区别:

  • 普通LLM:只回答

  • Agent:会“干活”


典型流程:
例如:
查询天气 + 找雨伞店

执行过程:

  1. 获取位置

  2. 查询天气

  3. 判断是否下雨

  4. 查找商店

  5. 输出结果

👉 本质是:
多步骤决策 + 工具链执行


九、Agent Skill:让Agent“更像人”

什么是Agent Skill?

👉 给Agent的一份操作说明书


本质:

  • 固定规则

  • 固定流程

  • 固定输出格式


通常包含:

  • 目标

  • 执行步骤

  • 判断规则

  • 输出格式

  • 示例


解决的问题:
👉 避免每次都写一大段Prompt


一句话理解:
Agent Skill = 可复用的高级Prompt模板 + 行为规范


🔚 总体逻辑(最终理解)

从底层到应用:

  • LLM → 负责“预测Token”

  • Token → 最小处理单位

  • Context → 输入的全部信息

  • Prompt → 控制行为

  • Tool → 扩展能力

  • MCP → 标准化工具接入

  • Agent → 自动执行任务

  • Agent Skill → 固化能力


🧩 一句话总结

大模型本质是基于Token预测的概率模型,通过上下文拼接实现“伪记忆”,用Prompt控制行为,通过Tool连接外部能力,在MCP标准下扩展生态,最终演化为可自主执行任务的Agent系统。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐