AI名词科普

懒的要死 · 2026-06-07 13:30:52 发布

AI领域新词迭代速度极快，本文将AI应用开发划分为三代工程化跃迁，系统拆解主流专业名词、技术原理、应用场景及常见踩坑点，梳理完整知识体系。在这里插入图片描述

AI应用开发两年完成三代能力升级，主线可概括为怎么问→喂什么→怎么验。

世代	核心能力	代表名词	核心作用
第一代	提示词工程	Prompt、System Prompt、CoT、Few-shot、Zero-shot、JSON Mode	教会AI听懂人类指令、规范输出结果
第二代	上下文工程	RAG、Memory、Vector DB、Embedding、Function Calling、MCP、A2A、Skill、Agent、OpenClaw	让AI调取外部资料、调用工具、自主完成任务
第三代	Harness（质检）工程	Eval Harness、Benchmark、MMLU、HumanEval、GSM8K、A/B Test、Regression Test	搭建评测体系，验证AI输出可靠性

所有AI工程化技术均基于以下四大模块组合而成，是理解各类名词的核心基础。

完整AI系统需四大模块协同，缺一难以落地。以AI员工为例：LLM负责思考，Memory记录信息，Tools拓展外部能力，Planning拆分复杂工作。

AI基础入门能力，目标是规范AI输入指令，控制输出格式与内容，目前已是行业基础门槛。

技术趋于成熟，属于必备基础能力；局限性明显：无法读取企业内部数据、调用外部工具。

解决模型知识滞后、无法使用私有数据的问题，核心是为AI补充精准外部信息与工具能力，实现“开卷考试”。

RAG（检索增强生成）
- 原理：外挂知识库，提问时先检索相关资料，再将资料并入提示词生成答案。
- 配套技术：Embedding（文本转向量）、Vector DB（向量数据库，如Chroma、Milvus等，存储并检索向量数据）。
Function Calling（函数调用）：AI判断需外部数据时，输出结构化指令调用API/工具，获取结果后整合回复。
MCP（模型上下文协议）：Function Calling的标准化协议，统一AI与各类工具（数据库、文档、浏览器）的对接接口，实现即插即用。
A2A（智能体互联协议）：实现多个AI智能体之间通信、分发任务、同步状态，支撑多AI协同工作。
Skill（技能）：预封装的任务逻辑，包含指令与工具调用。区分标准：集成工具、有规范输入输出为真Skill；仅文本模板为假Skill。
Agent（智能体）：四大基础模块的完整组合体，可自主规划、调用工具、完成复杂任务。演进路径：工具聊天→单任务Agent→多Agent协作→通用自主Agent。
OpenClaw：开源Agent应用框架，属于应用层封装，降低Agent开发门槛。

中高阶AI开发必备能力，无此能力无法承接复杂企业级业务。

AI落地的关键环节，解决AI可靠性验证问题，区分业余开发者与专业团队，是2026年行业主流趋势。

Eval Harness（评测框架）：标准化自动化评测工具链，模型、Prompt、RAG策略更新后，一键批量测试。
Benchmark（基准测试）：行业通用测试题库，用于初步筛选劣质模型，仅作参考，高分不代表业务适配。
主流基准测试数据集
- MMLU：覆盖57个学科的综合能力测试，检验知识广度，衍生版本：MMLU-Pro、MMLU-R。
- HumanEval：代码能力测试，共164道编程题，衍生：HumanEval+、MBPP、LiveCodeBench。
- GSM8K：中小学数学推理题，检验多步逻辑推理能力，衍生：GSM-Hard、MATH、AIME。
A/B Test（线上对照测试）：线上分流测试不同模型/策略，关注用户满意度、任务完成率等真实业务指标。
Regression Test（回归测试）：维护标准测试题库，每次迭代后复测，避免新改动破坏原有可用功能。