学习AI(二)：关于AI名词

weixin_54645630

70人浏览 · 2026-03-11 22:11:07

weixin_54645630 · 2026-03-11 22:11:07 发布

学习AI(二)：关于AI名词

2026-03-09 by weejar zhang

前一篇写了《谈谈openClaw》，其实除了openClaw，对于初学者来说还有像agent, skill,MCP, Planning Code等名词，或很多人其实只知道名字，但不知道它们在 AI 技术体系里的位置。今天帮大家把这些概念全部讲清楚，并且告诉你它们之间的关系。

一、AI 技术栈

如果把 AI 应用看成一个完整系统，大致可以分成 5 层结构：

AI 应用架构示例，如用户说：

帮我分析这个 GitHub 项目

AI 系统执行流程：

LLM 理解任务
        ↓
Planning 拆解任务
        ↓
Agent 执行任务
        ↓
MCP 访问 GitHub
        ↓
Skill 读取代码
        ↓
生成报告

二、大模型（LLM）

LLM（Large Language Model） 是整个 AI 体系的核心。

常见的大模型包括：

模型	公司
GPT 系列	OpenAI
Claude	Anthropic
Gemini	Google
Llama	Meta
Qwen	阿里
DeepSeek	深度求索
Abab/Speech	MiniMax
Kimi	月之暗面
GLM	智谱
Hunyuan	腾讯
Doubao	字节跳动
文心	百度

这些模型主要能力：

自然语言理解
写代码
逻辑推理
知识问答
多模态（图像 / 视频 / 语音）

三、AI Agent（智能体）

AI Agent 可以理解为：一个可以自己思考、调用工具、执行任务的 AI 程序。

Agent 的本质就是：LLM + Planning + Tools

当前主流 AI Agent 可以分为三类：

类型	代表
Agent框架	LangChain、AutoGen、CrewAI、openClaw、LlamaIndex、阿里云百炼
自动Agent	AutoGPT、BabyAGI、MetaGPT、Qianwen-agent
产品化Agent	Devin、OpenAI Assistants、Project Astra、Kimi Agent Builder、腾讯元宝

不同于低代码平台，同样的产品如Dify、Coze、腾讯元器

四、Planning（规划能力）

Planning 就是AI 在执行任务前，先把复杂问题拆成多个步骤。

Planning 就是：

AI 在执行任务前，先把复杂问题拆成多个步骤。

例如用户任务：

帮我开发一个 Todo App

AI 需要先规划：

1 设计数据库
2 写后端 API
3 写前端页面
4 集成测试
5 部署

这种能力就叫：

Task Planning

有些系统会用：

Tree of Thought
ReAct
Plan & Execute

来实现。

五、Code Agent / Planning Code（规划型代码）

Planning Code 是一种比较新的 AI 编程模式，AI 先生成执行计划，再一步步写代码并执行。

Planning Code：

用户需求
   ↓
AI生成计划
   ↓
AI逐步写代码
   ↓
执行
   ↓
修复错误
   ↓
继续

这类系统通常叫：Code Agent

典型项目：

OpenDevin
Devin
SWE-agent
Claude Code

六、Claude Code

Claude Code 是 Anthropic 推出的 AI 编程代理工具。

它的特点是：

直接在终端运行
能理解整个代码仓库
自动写代码、修改代码、运行测试

核心能力：

读取代码
修改文件
运行命令
提交修改

例如你可以说：

修复这个项目里的单元测试错误

Claude Code 会：

扫描代码库
找到测试
运行测试
修改代码
再次运行

七、Agent Skill（技能）

在 Agent 系统中，Skill = AI 可以调用的能力模块

一个 Agent 可以有很多 Skill：

Skill	功能
Search	搜索互联网
Python	执行 Python
Browser	打开网页
File	读写文件
Database	查询数据库
Email	发送邮件

当 AI 执行任务时：思考 → 选择 Skill → 执行

八、MCP（Model Context Protocol）

MCP 的目标是让 AI 可以标准化地连接各种工具和数据源。可以理解为：AI 世界的 USB 接口。

AI 可以通过 MCP 连接：

GitHub
Notion
Google Drive
数据库
本地文件

结构类似：

LLM
  ↓
MCP Client
  ↓
MCP Server
  ↓
各种工具

以前每个 AI 工具都要自己写插件。现在只要支持 MCP：所有 AI 都可以使用同一套工具。

目前支持 MCP 的生态：

Claude
Cursor
一些 Agent 框架

九、Token

Token 是模型处理文本时的最小单位。AI 读文字时，不是按“字”或“单词”，而是按 Token 来计算和理解, Token = 文本被模型拆分后的单位.

大模型本质是数学模型，它不能直接理解：

字符
单词
句子

必须先把文本转换成 数字序列。

流程大概是：

文字
↓
Token
↓
数字ID
↓
模型计算

例如：

Hello → token 15496
world → token 995

模型看到的是：

[15496, 995]

很多 AI 服务收费是 按 token 计算的。模型计算量基本和 token 数量成正比。

Token 和字数的关系

大致可以这样估算：

文本	约等于 Token
1个英文单词	1 token
1个中文汉字	1–2 token
1000英文词	~750 token
1000中文字符	~1000–2000 token

AI 能记住多少内容，取决于 Token 上下文窗口。Token 是大模型处理文本的最小单位，也是计算和收费的基本单位。Tokenizer（分词算法）的差异，一句话在不同 AI 模型里 Token 数量会完全不一样。

十、现在有什么技术可以节约大模型的TOKEN

在使用大模型（LLM）时，Token 成本和上下文长度是两个核心问题。很多公司和开发者都会想办法 减少 Token 使用量，目前业界主要有 节约 Token 的技术方法。核心原则是只给模型最必要的信息，按从简单到高级给你讲清楚。

Prompt 压缩（Prompt Compression）: 减少原始prompt中的非关键字
上下文裁剪（Context Truncation）：只保留最近的N条对话
对话摘要（Conversation Summarization）：把上文的内容总结，发送摘要
RAG 检索（只发送相关内容）：不要把 所有知识发给模型，只发送 相关内容
结构化 Prompt（减少冗余文本）: 生成如json等结构化数据
小模型预处理（Two-Stage Model） : 用户输入再小模型处理转大模型生成。
Prompt模板复用：对于反复使用的同一个prompt，可以在存模板，只传变量
mbedding + 向量检索：把文档转换成向量，存入向量数据库，查询时只检索相关内容，不发送全部
缓存（Prompt Cache）：两次请求类似，直接返回缓存结果，不再调用模型。

现在有些公司开始研究 “Token-Free LLM”（无Token模型），这可能会彻底改变大模型架构。目前主流的大模型（如 ChatGPT、Claude、Gemini）仍然是 Token-based LLM，也就是依赖 token 进行训练和推理。

Token-Free LLM

传统 LLM 的流程是：

文本
↓
tokenization（分词）
↓
token序列
↓
模型计算

Token-Free LLM 的目标是：

文本
↓
直接处理字符 / 字节 / 概念
↓
模型计算

Transformer 架构依赖 token. Transformer 的训练方式就是：预测下一个 token. 真正的 Token-Free LLM 还没有进入主流商业产品。

十一、大语言模型、多模态模型、物理模型、世界模型

可以把 大语言模型、多模态模型、物理模型、世界模型 看成 AI能力逐层增强的四个阶段。它们的核心区别在于：模型理解世界的深度不同。

类型	核心能力	主要输入	是否理解现实世界
大语言模型	语言理解和生成	文本	很弱
多模态模型	同时理解文本、图像、音频等	文本+图像+音频等	有一点
物理模型	理解现实世界物理规律	视频/交互	中等
世界模型	在内部模拟世界并预测未来	多模态+时间序列	很强

视频数据可能是训练世界模型最关键的数据

AI发展的一个典型路线

语言模型
     ↓
多模态模型
     ↓
理解不同信息物理模型
     ↓
理解现实规律世界模型
     ↓
在脑中模拟世界

现在几乎所有 AI（包括 ChatGPT）本质还是：

大语言模型 + 多模态能力

十二、Transformer和State Space Model（状态空间模型）

Transformer 的核心瓶颈：Attention 复杂度，Transformer 的核心机制是 Self-Attention（自注意力）。

它的计算复杂度是：

O(n²)

意思是：

token数量	计算量
1000	100万
10000	1亿
100000	100亿

也就是说：

输入越长，计算量是 平方增长。

SSM 的计算复杂度：

O(n)

也就是 线性增长。

举个简单对比：

序列长度	Transformer	SSM
1k	1M计算	1k计算
10k	100M	10k
100k	10B	100k

所以在 超长序列任务里，SSM理论上更高效。

Transformer 推理有个问题：

生成一个 token 时需要重新计算 attention。

而 SSM 的结构更像 RNN：

一步一步更新状态

所以推理延迟更低, SSM更适合之前提到过 Token-Free LLM。

未来可能的方向：混合架构 Transformer + SSM

短上下文 → Transformer
长上下文 → SSM

十三、AI名词里，哪些是要用户付费，哪些是免费的

AI 圈很多名词其实不是产品本身，而是技术或框架。主要是三类：概念、商业产品、开源或免费工具。

1、需要付费的 AI 产品（商业服务）

大模型服务，这些模型基本都是 API 按量付费(如按token，调用次数、算力、保月等)
AI编程工具，如cursor, claude code, VS 等的专业版

2、免费的

Ai agent框架，如autoGPT 但调用模型收费
AI coding agent，如openClaw
概念如或MCP协议

AI 现在的商业模式是：

框架基本免费
工具部分免费
核心模型收费

十四、planning code和 coding plan 区别

在 AI Agent / 编程助手领域，经常提planning,因为 AI Agent 编程正在从“直接写代码”变成“先规划再执行”。像Planning Code 和 Coding Plan 常常被混用，但严格来说它们是 两个不同层级的概念。

可以简单理解为：

Coding Plan = 计划文档
Planning Code = 实现计划的代码逻辑

两者最核心区别

项目	Coding Plan	Planning Code
性质	文档 / 计划	程序代码
作用	指导开发	执行任务规划
使用者	人类 / AI	AI Agent
输出形式	文本	代码

在 AI Coding Agent 中的关系

在现代 AI 编程系统里通常是这样的流程：

用户需求
↓
生成 Coding Plan
↓
写 Planning Code
↓
执行任务
↓
生成代码

如百炼（Bailian）的 Coding Plan，本质上属于：“AI Agent 的规划层（Planning Layer）能力”。也就是说，它更接近 Coding Plan（开发计划）这一类.

十五、AI Coding/Coding Agent

AI Coding/Coding Agent 仅用于编程场景，并不适用于如整理电脑文件、多视频编辑，相关的产品有

产品	公司
Qwen-Coder	阿里
DeepSeek-Coder	DeepSeek
CodeGeeX	智谱AI
腾讯AI代码助手	腾讯
Trae AI	字节

持续更新

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SpringBoot+Vue 公司资产网站管理平台源码【适合毕设/课设/学习】Java+MySQL

AtomGit开源社区

鸿蒙生态崛起下的核心人才：深度解析鸿蒙应用开发工程师岗位要求与技术栈

AtomGit开源社区

工资信息管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

AtomGit开源社区

所有评论(0)

查看更多评论

weixin_54645630

@weixin_54645630

已为社区贡献1条内容

学习AI(二)：关于AI名词

weixin_54645630

学习AI(二)：关于AI名词

一、AI 技术栈

二、大模型（LLM）

三、AI Agent（智能体）

四、Planning（规划能力）

五、Code Agent / Planning Code（规划型代码）

六、Claude Code

七、Agent Skill（技能）

八、MCP（Model Context Protocol）

九、Token

Token 和字数的关系

十、现在有什么技术可以节约大模型的TOKEN

十一、大语言模型、 多模态模型、物理模型、世界模型

AI发展的一个典型路线

十二、Transformer和State Space Model（状态空间模型）

它的计算复杂度是：

十三、AI名词里，哪些是要用户付费，哪些是免费的

1、需要付费的 AI 产品（商业服务）

2、免费的

十四、planning code和 coding plan 区别

两者最核心区别

在 AI Coding Agent 中的关系

十五、AI Coding/Coding Agent

所有评论(0)

weixin_54645630

十一、大语言模型、多模态模型、物理模型、世界模型