学习AI(二):关于AI名词

2026-03-09 by weejar zhang

前一篇写了《谈谈openClaw》,其实除了openClaw,对于初学者来说还有像agent, skill,MCP, Planning Code等名词,或很多人其实只知道名字,但不知道它们在 AI 技术体系里的位置。今天帮大家把这些概念全部讲清楚,并且告诉你它们之间的关系。

一、AI 技术栈

如果把 AI 应用看成一个完整系统,大致可以分成 5 层结构

img

AI 应用架构示例, 如用户说:

帮我分析这个 GitHub 项目

AI 系统执行流程:

LLM 理解任务
        ↓
Planning 拆解任务
        ↓
Agent 执行任务
        ↓
MCP 访问 GitHub
        ↓
Skill 读取代码
        ↓
生成报告
二、大模型(LLM)

LLM(Large Language Model) 是整个 AI 体系的核心。

常见的大模型包括:

模型 公司
GPT 系列 OpenAI
Claude Anthropic
Gemini Google
Llama Meta
Qwen 阿里
DeepSeek 深度求索
Abab/Speech MiniMax
Kimi 月之暗面
GLM 智谱
Hunyuan 腾讯
Doubao 字节跳动
文心 百度

这些模型主要能力:

  • 自然语言理解
  • 写代码
  • 逻辑推理
  • 知识问答
  • 多模态(图像 / 视频 / 语音)
三、AI Agent(智能体)

AI Agent 可以理解为:一个可以自己思考、调用工具、执行任务的 AI 程序。

Agent 的本质就是:LLM + Planning + Tools

当前主流 AI Agent 可以分为三类:

类型 代表
Agent框架 LangChain、AutoGen、CrewAI、openClaw、LlamaIndex、阿里云百炼
自动Agent AutoGPT、BabyAGI、MetaGPT、Qianwen-agent
产品化Agent Devin、OpenAI Assistants、Project Astra、Kimi Agent Builder、腾讯元宝

不同于低代码平台,同样的产品如Dify、Coze、腾讯元器

四、Planning(规划能力)

Planning 就是AI 在执行任务前,先把复杂问题拆成多个步骤。

Planning 就是:

AI 在执行任务前,先把复杂问题拆成多个步骤。

例如用户任务:

帮我开发一个 Todo App

AI 需要先规划:

1 设计数据库
2 写后端 API
3 写前端页面
4 集成测试
5 部署

这种能力就叫:

Task Planning

有些系统会用:

  • Tree of Thought
  • ReAct
  • Plan & Execute

来实现。

五、Code Agent / Planning Code(规划型代码)

Planning Code 是一种比较新的 AI 编程模式,AI 先生成执行计划,再一步步写代码并执行。

Planning Code:

用户需求
   ↓
AI生成计划
   ↓
AI逐步写代码
   ↓
执行
   ↓
修复错误
   ↓
继续

这类系统通常叫:Code Agent

典型项目:

  • OpenDevin
  • Devin
  • SWE-agent
  • Claude Code
六、Claude Code

Claude Code 是 Anthropic 推出的 AI 编程代理工具

它的特点是:

  • 直接在终端运行
  • 能理解整个代码仓库
  • 自动写代码、修改代码、运行测试

核心能力:

读取代码
修改文件
运行命令
提交修改

例如你可以说:

修复这个项目里的单元测试错误

Claude Code 会:

  1. 扫描代码库
  2. 找到测试
  3. 运行测试
  4. 修改代码
  5. 再次运行
七、Agent Skill(技能)

在 Agent 系统中,Skill = AI 可以调用的能力模块

一个 Agent 可以有很多 Skill:

Skill 功能
Search 搜索互联网
Python 执行 Python
Browser 打开网页
File 读写文件
Database 查询数据库
Email 发送邮件

当 AI 执行任务时:思考 → 选择 Skill → 执行

八、MCP(Model Context Protocol)

MCP 的目标是让 AI 可以标准化地连接各种工具和数据源。可以理解为:AI 世界的 USB 接口。

AI 可以通过 MCP 连接:

  • GitHub
  • Notion
  • Google Drive
  • 数据库
  • 本地文件

结构类似:

LLM
  ↓
MCP Client
  ↓
MCP Server
  ↓
各种工具

以前每个 AI 工具都要自己写插件。现在只要支持 MCP:所有 AI 都可以使用同一套工具。

目前支持 MCP 的生态:

  • Claude
  • Cursor
  • 一些 Agent 框架
九、Token

Token 是模型处理文本时的最小单位。AI 读文字时,不是按“字”或“单词”,而是按 Token 来计算和理解, Token = 文本被模型拆分后的单位.

大模型本质是数学模型,它不能直接理解:

  • 字符
  • 单词
  • 句子

必须先把文本转换成 数字序列

流程大概是:

文字
↓
Token
↓
数字ID
↓
模型计算

例如:

Hello → token 15496
world → token 995

模型看到的是:

[15496, 995]

很多 AI 服务收费是 按 token 计算的。模型计算量基本和 token 数量成正比

Token 和字数的关系

大致可以这样估算:

文本 约等于 Token
1个英文单词 1 token
1个中文汉字 1–2 token
1000英文词 ~750 token
1000中文字符 ~1000–2000 token

AI 能记住多少内容,取决于 Token 上下文窗口。Token 是大模型处理文本的最小单位,也是计算和收费的基本单位。Tokenizer(分词算法)的差异,一句话在不同 AI 模型里 Token 数量会完全不一样。

十、现在有什么技术可以节约大模型的TOKEN

在使用大模型(LLM)时,Token 成本和上下文长度是两个核心问题。很多公司和开发者都会想办法 减少 Token 使用量,目前业界主要有 节约 Token 的技术方法。核心原则是只给模型最必要的信息,按从简单到高级给你讲清楚。

  • Prompt 压缩(Prompt Compression): 减少原始prompt中的非关键字
  • 上下文裁剪(Context Truncation):只保留最近的N条对话
  • 对话摘要(Conversation Summarization):把上文的内容总结,发送摘要
  • RAG 检索(只发送相关内容):不要把 所有知识发给模型,只发送 相关内容
  • 结构化 Prompt(减少冗余文本): 生成如json等结构化数据
  • 小模型预处理(Two-Stage Model) : 用户输入再小模型处理转大模型生成。
  • Prompt模板复用: 对于反复使用的同一个prompt,可以在存模板,只传变量
  • mbedding + 向量检索: 把文档转换成 向量,存入向量数据库, 查询时只检索相关内容,不发送全部
  • 缓存(Prompt Cache):两次请求类似,直接返回缓存结果,不再调用模型。

现在有些公司开始研究 “Token-Free LLM”(无Token模型),这可能会彻底改变大模型架构。目前主流的大模型(如 ChatGPT、Claude、Gemini)仍然是 Token-based LLM,也就是依赖 token 进行训练和推理。

Token-Free LLM

传统 LLM 的流程是:

文本
↓
tokenization(分词)
↓
token序列
↓
模型计算

Token-Free LLM 的目标是:

文本
↓
直接处理字符 / 字节 / 概念
↓
模型计算

Transformer 架构依赖 token. Transformer 的训练方式就是:预测下一个 token. 真正的 Token-Free LLM 还没有进入主流商业产品。

十一、大语言模型、 多模态模型、物理模型、世界模型

可以把 大语言模型、 多模态模型、物理模型、世界模型 看成 AI能力逐层增强的四个阶段。它们的核心区别在于:模型理解世界的深度不同

类型 核心能力 主要输入 是否理解现实世界
大语言模型 语言理解和生成 文本 很弱
多模态模型 同时理解文本、图像、音频等 文本+图像+音频等 有一点
物理模型 理解现实世界物理规律 视频/交互 中等
世界模型 在内部模拟世界并预测未来 多模态+时间序列 很强

视频数据可能是训练世界模型最关键的数据

AI发展的一个典型路线
语言模型
     ↓
多模态模型
     ↓
理解不同信息物理模型
     ↓
理解现实规律世界模型
     ↓
在脑中模拟世界

现在几乎所有 AI(包括 ChatGPT)本质还是:

大语言模型 + 多模态能力
十二、Transformer和State Space Model(状态空间模型)

Transformer 的核心瓶颈:Attention 复杂度,Transformer 的核心机制是 Self-Attention(自注意力)

它的计算复杂度是:
O(n²)

意思是:

token数量 计算量
1000 100万
10000 1亿
100000 100亿

也就是说:

输入越长,计算量是 平方增长

SSM 的计算复杂度:

O(n)

也就是 线性增长

举个简单对比:

序列长度 Transformer SSM
1k 1M计算 1k计算
10k 100M 10k
100k 10B 100k

所以在 超长序列任务里,SSM理论上更高效。

Transformer 推理有个问题:

生成一个 token 时需要重新计算 attention。

而 SSM 的结构更像 RNN:

一步一步更新状态

所以推理延迟更低, SSM更适合之前提到过 Token-Free LLM

未来可能的方向:混合架构 Transformer + SSM

短上下文 → Transformer
长上下文 → SSM
十三、AI名词里,哪些是要用户付费,哪些是免费的

AI 圈很多名词其实不是产品本身,而是技术或框架。主要是三类:概念、商业产品、开源或免费工具。

1、需要付费的 AI 产品(商业服务)
  • 大模型服务,这些模型基本都是 API 按量付费(如按token,调用次数、算力、保月等)
  • AI编程工具,如cursor, claude code, VS 等的专业版
2、免费的
  • Ai agent框架,如autoGPT 但调用模型收费
  • AI coding agent, 如openClaw
  • 概念如 或MCP协议

AI 现在的商业模式是:

框架基本免费
工具部分免费
核心模型收费
十四、planning code和 coding plan 区别

在 AI Agent / 编程助手领域,经常提planning,因为 AI Agent 编程正在从“直接写代码”变成“先规划再执行”。像Planning CodeCoding Plan 常常被混用,但严格来说它们是 两个不同层级的概念

可以简单理解为:

Coding Plan = 计划文档
Planning Code = 实现计划的代码逻辑

两者最核心区别
项目 Coding Plan Planning Code
性质 文档 / 计划 程序代码
作用 指导开发 执行任务规划
使用者 人类 / AI AI Agent
输出形式 文本 代码
在 AI Coding Agent 中的关系

在现代 AI 编程系统里通常是这样的流程:

用户需求
↓
生成 Coding Plan
↓
写 Planning Code
↓
执行任务
↓
生成代码

百炼(Bailian)的 Coding Plan,本质上属于:“AI Agent 的规划层(Planning Layer)能力”。也就是说,它更接近 Coding Plan(开发计划)这一类.

十五、AI Coding/Coding Agent

AI Coding/Coding Agent 仅用于编程场景,并不适用于如整理电脑文件、多视频编辑,相关的产品有

产品 公司
Qwen-Coder 阿里
DeepSeek-Coder DeepSeek
CodeGeeX 智谱AI
腾讯AI代码助手 腾讯
Trae AI 字节

持续更新

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐