学习AI(二):关于AI名词
学习AI(二):关于AI名词
2026-03-09 by weejar zhang
前一篇写了《谈谈openClaw》,其实除了openClaw,对于初学者来说还有像agent, skill,MCP, Planning Code等名词,或很多人其实只知道名字,但不知道它们在 AI 技术体系里的位置。今天帮大家把这些概念全部讲清楚,并且告诉你它们之间的关系。
一、AI 技术栈
如果把 AI 应用看成一个完整系统,大致可以分成 5 层结构:
AI 应用架构示例, 如用户说:
帮我分析这个 GitHub 项目
AI 系统执行流程:
LLM 理解任务
↓
Planning 拆解任务
↓
Agent 执行任务
↓
MCP 访问 GitHub
↓
Skill 读取代码
↓
生成报告
二、大模型(LLM)
LLM(Large Language Model) 是整个 AI 体系的核心。
常见的大模型包括:
| 模型 | 公司 |
|---|---|
| GPT 系列 | OpenAI |
| Claude | Anthropic |
| Gemini | |
| Llama | Meta |
| Qwen | 阿里 |
| DeepSeek | 深度求索 |
| Abab/Speech | MiniMax |
| Kimi | 月之暗面 |
| GLM | 智谱 |
| Hunyuan | 腾讯 |
| Doubao | 字节跳动 |
| 文心 | 百度 |
这些模型主要能力:
- 自然语言理解
- 写代码
- 逻辑推理
- 知识问答
- 多模态(图像 / 视频 / 语音)
三、AI Agent(智能体)
AI Agent 可以理解为:一个可以自己思考、调用工具、执行任务的 AI 程序。
Agent 的本质就是:LLM + Planning + Tools
当前主流 AI Agent 可以分为三类:
| 类型 | 代表 |
|---|---|
| Agent框架 | LangChain、AutoGen、CrewAI、openClaw、LlamaIndex、阿里云百炼 |
| 自动Agent | AutoGPT、BabyAGI、MetaGPT、Qianwen-agent |
| 产品化Agent | Devin、OpenAI Assistants、Project Astra、Kimi Agent Builder、腾讯元宝 |
不同于低代码平台,同样的产品如Dify、Coze、腾讯元器
四、Planning(规划能力)
Planning 就是AI 在执行任务前,先把复杂问题拆成多个步骤。
Planning 就是:
AI 在执行任务前,先把复杂问题拆成多个步骤。
例如用户任务:
帮我开发一个 Todo App
AI 需要先规划:
1 设计数据库
2 写后端 API
3 写前端页面
4 集成测试
5 部署
这种能力就叫:
Task Planning
有些系统会用:
- Tree of Thought
- ReAct
- Plan & Execute
来实现。
五、Code Agent / Planning Code(规划型代码)
Planning Code 是一种比较新的 AI 编程模式,AI 先生成执行计划,再一步步写代码并执行。
Planning Code:
用户需求
↓
AI生成计划
↓
AI逐步写代码
↓
执行
↓
修复错误
↓
继续
这类系统通常叫:Code Agent
典型项目:
- OpenDevin
- Devin
- SWE-agent
- Claude Code
六、Claude Code
Claude Code 是 Anthropic 推出的 AI 编程代理工具。
它的特点是:
- 直接在终端运行
- 能理解整个代码仓库
- 自动写代码、修改代码、运行测试
核心能力:
读取代码
修改文件
运行命令
提交修改
例如你可以说:
修复这个项目里的单元测试错误
Claude Code 会:
- 扫描代码库
- 找到测试
- 运行测试
- 修改代码
- 再次运行
七、Agent Skill(技能)
在 Agent 系统中,Skill = AI 可以调用的能力模块
一个 Agent 可以有很多 Skill:
| Skill | 功能 |
|---|---|
| Search | 搜索互联网 |
| Python | 执行 Python |
| Browser | 打开网页 |
| File | 读写文件 |
| Database | 查询数据库 |
| 发送邮件 |
当 AI 执行任务时:思考 → 选择 Skill → 执行
八、MCP(Model Context Protocol)
MCP 的目标是让 AI 可以标准化地连接各种工具和数据源。可以理解为:AI 世界的 USB 接口。
AI 可以通过 MCP 连接:
- GitHub
- Notion
- Google Drive
- 数据库
- 本地文件
结构类似:
LLM
↓
MCP Client
↓
MCP Server
↓
各种工具
以前每个 AI 工具都要自己写插件。现在只要支持 MCP:所有 AI 都可以使用同一套工具。
目前支持 MCP 的生态:
- Claude
- Cursor
- 一些 Agent 框架
九、Token
Token 是模型处理文本时的最小单位。AI 读文字时,不是按“字”或“单词”,而是按 Token 来计算和理解, Token = 文本被模型拆分后的单位.
大模型本质是数学模型,它不能直接理解:
- 字符
- 单词
- 句子
必须先把文本转换成 数字序列。
流程大概是:
文字
↓
Token
↓
数字ID
↓
模型计算
例如:
Hello → token 15496
world → token 995
模型看到的是:
[15496, 995]
很多 AI 服务收费是 按 token 计算的。模型计算量基本和 token 数量成正比。
Token 和字数的关系
大致可以这样估算:
| 文本 | 约等于 Token |
|---|---|
| 1个英文单词 | 1 token |
| 1个中文汉字 | 1–2 token |
| 1000英文词 | ~750 token |
| 1000中文字符 | ~1000–2000 token |
AI 能记住多少内容,取决于 Token 上下文窗口。Token 是大模型处理文本的最小单位,也是计算和收费的基本单位。Tokenizer(分词算法)的差异,一句话在不同 AI 模型里 Token 数量会完全不一样。
十、现在有什么技术可以节约大模型的TOKEN
在使用大模型(LLM)时,Token 成本和上下文长度是两个核心问题。很多公司和开发者都会想办法 减少 Token 使用量,目前业界主要有 节约 Token 的技术方法。核心原则是只给模型最必要的信息,按从简单到高级给你讲清楚。
- Prompt 压缩(Prompt Compression): 减少原始prompt中的非关键字
- 上下文裁剪(Context Truncation):只保留最近的N条对话
- 对话摘要(Conversation Summarization):把上文的内容总结,发送摘要
- RAG 检索(只发送相关内容):不要把 所有知识发给模型,只发送 相关内容
- 结构化 Prompt(减少冗余文本): 生成如json等结构化数据
- 小模型预处理(Two-Stage Model) : 用户输入再小模型处理转大模型生成。
- Prompt模板复用: 对于反复使用的同一个prompt,可以在存模板,只传变量
- mbedding + 向量检索: 把文档转换成 向量,存入向量数据库, 查询时只检索相关内容,不发送全部
- 缓存(Prompt Cache):两次请求类似,直接返回缓存结果,不再调用模型。
现在有些公司开始研究 “Token-Free LLM”(无Token模型),这可能会彻底改变大模型架构。目前主流的大模型(如 ChatGPT、Claude、Gemini)仍然是 Token-based LLM,也就是依赖 token 进行训练和推理。
Token-Free LLM
传统 LLM 的流程是:
文本
↓
tokenization(分词)
↓
token序列
↓
模型计算
Token-Free LLM 的目标是:
文本
↓
直接处理字符 / 字节 / 概念
↓
模型计算
Transformer 架构依赖 token. Transformer 的训练方式就是:预测下一个 token. 真正的 Token-Free LLM 还没有进入主流商业产品。
十一、大语言模型、 多模态模型、物理模型、世界模型
可以把 大语言模型、 多模态模型、物理模型、世界模型 看成 AI能力逐层增强的四个阶段。它们的核心区别在于:模型理解世界的深度不同。
| 类型 | 核心能力 | 主要输入 | 是否理解现实世界 |
|---|---|---|---|
| 大语言模型 | 语言理解和生成 | 文本 | 很弱 |
| 多模态模型 | 同时理解文本、图像、音频等 | 文本+图像+音频等 | 有一点 |
| 物理模型 | 理解现实世界物理规律 | 视频/交互 | 中等 |
| 世界模型 | 在内部模拟世界并预测未来 | 多模态+时间序列 | 很强 |
视频数据可能是训练世界模型最关键的数据
AI发展的一个典型路线
语言模型
↓
多模态模型
↓
理解不同信息物理模型
↓
理解现实规律世界模型
↓
在脑中模拟世界
现在几乎所有 AI(包括 ChatGPT)本质还是:
大语言模型 + 多模态能力
十二、Transformer和State Space Model(状态空间模型)
Transformer 的核心瓶颈:Attention 复杂度,Transformer 的核心机制是 Self-Attention(自注意力)。
它的计算复杂度是:
O(n²)
意思是:
| token数量 | 计算量 |
|---|---|
| 1000 | 100万 |
| 10000 | 1亿 |
| 100000 | 100亿 |
也就是说:
输入越长,计算量是 平方增长。
SSM 的计算复杂度:
O(n)
也就是 线性增长。
举个简单对比:
| 序列长度 | Transformer | SSM |
|---|---|---|
| 1k | 1M计算 | 1k计算 |
| 10k | 100M | 10k |
| 100k | 10B | 100k |
所以在 超长序列任务里,SSM理论上更高效。
Transformer 推理有个问题:
生成一个 token 时需要重新计算 attention。
而 SSM 的结构更像 RNN:
一步一步更新状态
所以推理延迟更低, SSM更适合之前提到过 Token-Free LLM。
未来可能的方向:混合架构 Transformer + SSM
短上下文 → Transformer
长上下文 → SSM
十三、AI名词里,哪些是要用户付费,哪些是免费的
AI 圈很多名词其实不是产品本身,而是技术或框架。主要是三类:概念、商业产品、开源或免费工具。
1、需要付费的 AI 产品(商业服务)
- 大模型服务,这些模型基本都是 API 按量付费(如按token,调用次数、算力、保月等)
- AI编程工具,如cursor, claude code, VS 等的专业版
2、免费的
- Ai agent框架,如autoGPT 但调用模型收费
- AI coding agent, 如openClaw
- 概念如 或MCP协议
AI 现在的商业模式是:
框架基本免费
工具部分免费
核心模型收费
十四、planning code和 coding plan 区别
在 AI Agent / 编程助手领域,经常提planning,因为 AI Agent 编程正在从“直接写代码”变成“先规划再执行”。像Planning Code 和 Coding Plan 常常被混用,但严格来说它们是 两个不同层级的概念。
可以简单理解为:
Coding Plan = 计划文档
Planning Code = 实现计划的代码逻辑
两者最核心区别
| 项目 | Coding Plan | Planning Code |
|---|---|---|
| 性质 | 文档 / 计划 | 程序代码 |
| 作用 | 指导开发 | 执行任务规划 |
| 使用者 | 人类 / AI | AI Agent |
| 输出形式 | 文本 | 代码 |
在 AI Coding Agent 中的关系
在现代 AI 编程系统里通常是这样的流程:
用户需求
↓
生成 Coding Plan
↓
写 Planning Code
↓
执行任务
↓
生成代码
如百炼(Bailian)的 Coding Plan,本质上属于:“AI Agent 的规划层(Planning Layer)能力”。也就是说,它更接近 Coding Plan(开发计划)这一类.
十五、AI Coding/Coding Agent
AI Coding/Coding Agent 仅用于编程场景,并不适用于如整理电脑文件、多视频编辑,相关的产品有
| 产品 | 公司 |
|---|---|
| Qwen-Coder | 阿里 |
| DeepSeek-Coder | DeepSeek |
| CodeGeeX | 智谱AI |
| 腾讯AI代码助手 | 腾讯 |
| Trae AI | 字节 |
持续更新
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐




所有评论(0)