【不定期半古法更新】02：AI 开发范式核心概念名词表

k_ybs

446人浏览 · 2026-04-14 00:57:13

k_ybs · 2026-04-14 00:57:13 发布

AI 开发范式核心概念名词表

概述

本文档可能用来解释 AI 开发范式领域中的核心概念名词,帮助建立对该领域的初步系统认知。

核心概念

Agent (智能体/代理)

定义: 具备自主规划、记忆、工具调用和决策能力的 AI 实体。

深入理解: Agent 不是一个简单的"聊天机器人"。它的核心区别在于"自主性"——能接收一个目标,自己决定怎么做,调用什么工具,然后执行,遇到问题自己调整策略。一个 Agent 的核心组成:

大脑(LLM): 负责推理和决策
记忆: 短期记忆(上下文窗口)和长期记忆(向量数据库/文件)
工具: 可调用的外部能力(文件系统、终端、API 等)
规划器: 将目标分解为子任务的能力

与其他概念的关系: Agent 是 Agentic Coding 的核心;MCP 是 Agent 的工具协议;Skill 是 Agent 的能力单元;Multi-Agent 是多个 Agent 的协作。

Skill (技能)

定义: Agent 可调用的结构化能力单元,通常以 Markdown 格式的步骤化指令模板实现。

深入理解: Skill 是给 Agent 的"操作手册"。它不是代码,而是自然语言的结构化指令,告诉 Agent 在特定场景下应该怎么做。在 OpenSpec 中,每个 Skill 对应一个工作流动作(如 propose、apply、archive)。

示例: OpenSpec 的 openspec-apply-change Skill 告诉 AI:先读任务列表,按顺序实现每个任务,实现后打勾标记完成,遇到问题暂停并报告。

Spec (规格说明)

定义: 描述系统"应该做什么"的正式文档,使用 SHALL/MUST 等规范性语言,包含可测试的场景。

深入理解: Spec 是 SDD 方法论的核心。它的关键特征:

使用规范性语言(SHALL 表示必须实现的需求)
每个需求必须有至少一个场景(Scenario),用 WHEN/THEN 格式描述
场景就是测试用例的自然语言表达
Spec 是 AI 的"合约",限定做什么和不做什么

SDD (Spec-Driven Development)

定义: 以 Spec 为中心驱动 AI 进行软件开发的方法论。

深入理解: SDD 的核心循环是: 人定义 Spec -> AI 实现 Spec -> 按 Spec 验收。它解决了 Vibe Coding 的核心问题:自然语言太模糊,AI 容易偏离方向。SDD 提供了一个结构化的"需求-设计-规格-实施"流程。

MCP (Model Context Protocol)

定义: Anthropic 提出的开放标准协议,让 AI 模型(Client)与外部工具和数据源(Server)进行标准化交互。

深入理解: MCP 解决的问题: 之前每个 AI 工具都要单独开发集成方式,N 个模型 x M 个工具 = N*M 个集成。MCP 把这变成 N+M:所有模型都说 MCP 协议,所有工具都实现 MCP Server。核心概念:

Client: AI 模型端(如 Claude, Cursor 内的模型)
Server: 工具端(文件系统 Server, 数据库 Server, API Server)
Tool: 模型可调用的操作(如 read_file, run_command)
Resource: 模型可读取的数据(如项目文件结构)
Prompt: 模型可使用的提示模板

MCP结构

Token (令牌)

定义: LLM 处理文本的基本单位,约 4 个英文字符或 1-2 个中文字符。

深入理解: Token 是 AI 开发中的"货币":

输入和输出都按 Token 计费
上下文窗口以 Token 为单位(如 200K tokens)
更多 Token = 更高成本 + 更长处理时间
Token 管理是 Agentic 开发的关键挑战

Context Window (上下文窗口)

定义: LLM 单次能处理的最大 Token 数量。

深入理解: 上下文窗口决定了 AI 能"看到"多少信息。2026 年主流模型:

Claude: 200K tokens(约 15 万字)
GPT-4: 128K tokens
Gemini: 1M+ tokens
更长的上下文 != 更好:信息越多,关键信息被"稀释"的风险越大(“Lost in the Middle” 问题)

RAG (Retrieval-Augmented Generation)

定义: 让 LLM 在生成回答前先从外部知识库检索相关文档,提升准确性和时效性。

深入理解: RAG 的工作流程: 用户提问 -> 将问题转为向量 -> 在向量数据库中搜索相似文档 -> 将相关文档和问题一起发给 LLM -> LLM 基于文档生成回答。RAG 是让 AI 使用"知识"而非仅依赖训练数据的关键技术。

Tool Use / Function Calling

定义: LLM 根据用户请求选择并调用预定义函数/工具的能力。

深入理解: Tool Use 是 Agent 的核心能力。流程: 用户请求 -> LLM 决定需要调用哪个工具 -> 生成调用参数(JSON) -> 系统执行工具 -> 结果返回给 LLM -> LLM 基于结果继续推理。这让 AI 从"只能说话"变成"能做事"。

Agentic Loop

定义: Agent 的核心运行机制:"思考(Reason) -> 行动(Act) -> 观察(Observe)"的循环。

深入理解: 源自 ReAct 论文,这个循环让 Agent 具备了"做事"的能力:

思考: 分析当前状态,决定下一步
行动: 调用工具执行操作
观察: 接收工具返回的结果
回到 1,直到任务完成

Orchestrator (编排器)

定义: 在 Multi-Agent 系统中,协调多个 Agent 分工、通信和任务调度的控制层。

深入理解: 当一个任务需要多个 Agent 协作时,Orchestrator 负责:分配子任务给不同 Agent、管理 Agent 间通信、收集结果并整合、处理冲突和错误。

Multi-Agent System (多智能体系统)

定义: 多个 AI Agent 分工协作完成复杂任务的系统。

深入理解: 受人类团队协作启发。典型模式:

层级模式: 一个 Manager Agent 分配任务给 Worker Agent
对等模式: Agent 之间平等协商
流水线模式: 任务按序在不同 Agent 间传递
代表框架: LangGraph, CrewAI, AutoGen, MetaGPT

HITL (Human-in-the-Loop)

定义: AI 系统在关键决策点引入人类审批或反馈的协作模式。

深入理解: HITL 是当前 Agentic Coding 的安全网。AI 自主做日常执行,但在以下节点需要人类介入:

架构设计决策
安全敏感操作(删除文件、部署到生产)
需求不明确时的澄清
质量验收

参考资源

ReAct 论文 - https://arxiv.org/abs/2210.03629
MCP 官方文档 - https://modelcontextprotocol.io
OpenSpec 文档 - https://openspec.dev

写在后面

一些理解：

LLM是大模型，一般的大模型无法感知外界环境（脑）；

而当加上读写查看文件，运行终端等等工具（手脚）之后就变成了agent。

agent类别很多，比如开发（类似的有cursor、claude等），深度搜索，ppt等。agent的运行方式有几种，经常用到的是ReAct，就是思考与行动。

用户发出任务，agent思考之后判断是否需要使用工具，然后action就是调用工具，之后就是observation查看评估执行结果是不是最终，如果不是最终结果，就再返回到判断是否使用工具，进入循环直到结果出来，发给用户。

所以agent的组成里面有模型，工具函数，以及agent主程序。

MCP (Model Context Protocol) 是模型上下文通信协议，它可以：规范化 Agent 与外部工具和数据源的交互方式、含有 Tools（工具）、Resources（资源）、Prompts（提示模板）。

MCP 可部署为本地进程（stdio）或远程服务（HTTP/SSE）。

MCP工作流程简图
MCP流程

结构化输出

Function Calling：大模型使用预定义的 JSON Schema 格式来表达"需要调用外部工具"的意图，而非直接生成自然语言；
System Prompt ：在对话开始时给模型的高层指令，用于设定模型的人格、能力边界、输出格式等元规则，通常不对外可见（或在UI中被折叠）

MCP流程图解释

1.用户发任务给 Agent；
2.Agent（内部 LLM）思考，若需工具则生成结构化输出（Function Calling/Tool Call）；
3.Agent 内的 MCP Client 将该指令通过 MCP 协议发送至 MCP Server；
4.MCP Server 调用实际工具执行；
5.Server 将执行结果返回给 MCP Client；
6.Client 将结果（作为 Observation）交回给 Agent（LLM）；
7.Agent 审查结果，若未完成则回到步骤 2 进入 ReAct 循环，
若完成则生成最终答案返回给用户。

二编：补充一个ACP (Agent Client Protocol)：编辑器/客户端与 AI Agent 之间的通信规范，定义了 IDE 如何接入和调度 Agent。

ACP 由 Client（编辑器侧）、Server（Agent 侧）、Session（会话层）和 Transport（传输层）构成。
在这里插入图片描述