AI技术名词解释

AI-好学者

409人浏览 · 2026-06-14 11:53:12

AI-好学者 · 2026-06-14 11:53:12 发布

AI技术名词解释

一、AI愿景与目标

AGI（通用人工智能）

定义：像人一样什么都能学、什么都能干的全能AI，目前尚未实现

详细解释：AGI是AI研究的终极目标，指能够像人类一样在各种任务中表现出智能的系统。与当前的"窄AI"（Narrow AI）不同，AGI能够：

跨领域迁移学习（学会开车后能更快学会开船）
自主设定目标和规划
理解抽象概念并进行推理
具备常识和创造力

示例：

窄AI：AlphaGo只能下围棋，不能下象棋
AGI（理想）：学会围棋后，能自己推导出象棋规则并下棋

当前状态：GPT-4、Claude等大模型展现出AGI的雏形，但仍缺乏真正的自主性和跨领域泛化能力。

ASI（超级人工智能）

定义：智力全面超越全人类总和的AI，属于科幻范畴

详细解释：ASI是超越AGI的下一个阶段，其智力水平远超人类最聪明个体的总和。特征包括：

解决人类无法解决的复杂问题（如统一量子力学和相对论）
在所有认知任务上碾压人类
可能具备自我改进能力（递归自我优化）

风险与讨论：ASI可能带来存在性风险，是AI安全研究的核心议题。

AIGC（AI Generated Content）

定义：用AI自动生成文字、图片、音频、视频等内容

详细解释：AIGC是内容生产方式的革命，从PGC（专业生产）、UGC（用户生产）进化到AIGC（AI生产）。

应用示例：

# 文字生成 - 使用OpenAI API
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "写一首关于春天的诗"}]
)
print(response.choices[0].message.content)

# 图片生成 - 使用DALL-E
image = client.images.generate(
    model="dall-e-3",
    prompt="一只在樱花树下读书的猫",
    size="1024x1024"
)
print(image.data[0].url)

代表工具：

文字：ChatGPT、Claude、文心一言
图片：Midjourney、Stable Diffusion、DALL-E
视频：Sora、Runway、Pika
音频：ElevenLabs、Azure TTS

Vibe Coding（氛围编程）

定义：用自然语言描述功能，AI生成代码

详细解释：Vibe Coding是Andrej Karpathy在2025年提出的新概念，指开发者不再逐行编写代码，而是通过自然语言描述意图，让AI完成编码工作。

特点：

开发者角色从"码农"转变为"产品经理+架构师"
更关注"要做什么"而非"怎么做"
降低编程门槛，让非专业人士也能开发应用

示例：

传统编程：写500行代码实现一个登录页面
Vibe Coding：告诉AI"做一个现代风格的登录页面，支持邮箱和手机号登录，
            有记住密码功能，适配移动端"

二、提示与交互

Prompt Engineering（提示词工程）

定义：巧妙设计提问方式，引导AI给出更好回答

详细解释：提示词工程是与大模型交互的核心技能，通过精心设计的提示词，可以显著提升AI输出的质量和准确性。

核心技巧：

角色设定：给AI一个明确的身份
任务明确：清楚说明要做什么
提供示例：Few-shot learning
分步引导：Chain of Thought
输出格式：指定返回格式

示例：

# ❌ 糟糕的提示词
prompt = "写一篇文章"

# ✅ 优秀的提示词
prompt = """
你是一位资深的科技记者，擅长用通俗易懂的语言解释复杂技术。

任务：写一篇关于"大语言模型原理"的科普文章

要求：
1. 目标读者：非技术背景的普通大众
2. 字数：800-1000字
3. 风格：轻松幽默，多用比喻
4. 结构：
   - 开头：用一个生活中的例子引入
   - 中间：解释核心原理（预测下一个字）
   - 结尾：展望未来应用

请用Markdown格式输出。
"""

Context Engineering（上下文工程）

定义：设计和管理喂给AI的上下文内容

详细解释：上下文工程比提示词工程更进一步，关注如何组织、筛选和管理输入给AI的所有信息，包括对话历史、知识库内容、系统指令等。

核心要素：

系统提示（System Prompt）：设定AI的行为准则
对话历史：维护多轮对话的上下文
知识注入：通过RAG等方式注入相关知识
上下文窗口管理：在有限token内最大化有效信息

示例：

from openai import OpenAI
client = OpenAI()

system_prompt = """
你是公司的客服AI助手，名叫"小智"。

【公司信息】
- 公司名称：智云科技
- 主营业务：云计算服务
- 客服电话：400-123-4567

【回答规则】
1. 语气友好专业
2. 不确定的问题转人工
3. 涉及退款需询问订单号
"""

messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "我想退款"},
    {"role": "assistant", "content": "好的，请问您的订单号是多少？"},
    {"role": "user", "content": "是ORD123456"}
]

response = client.chat.completions.create(
    model="gpt-4",
    messages=messages
)

Harness Engineering（驾驭工程）

定义：标准化框架管理AI的输入输出和错误处理

详细解释：Harness Engineering是构建可靠AI应用的关键，指通过标准化框架来约束和管理AI系统的行为，确保输出可控、错误可处理、行为可预测。

核心组件：

输入验证：过滤有害输入，格式化用户请求
输出约束：强制AI按指定格式输出
错误处理：捕获异常，优雅降级
监控日志：记录AI行为，便于调试

HITL（人在回路）

定义：AI处理常规任务，没把握的事转交人工

详细解释：Human-in-the-Loop是一种AI与人类协作的模式，AI负责处理大部分确定性任务，在遇到不确定或高风险情况时，主动请求人工介入。

应用场景：

内容审核：AI自动审核，敏感内容人工复核
客服系统：AI处理常见问题，复杂问题转人工
医疗诊断：AI辅助诊断，医生最终确认
自动驾驶：AI常规驾驶，极端情况人工接管

三、Agent架构与协作

Agent（AI智能体）

定义：能自主感知环境、规划行动并完成复杂任务的AI系统

详细解释：Agent是大模型应用的高级形态，不同于简单的问答，Agent能够：

感知：理解环境和用户需求
规划：分解复杂任务，制定执行计划
行动：调用工具、执行操作
反思：评估结果，调整策略

代表框架：

LangChain：最流行的Agent开发框架
AutoGPT：自主AI Agent先驱
MetaGPT：多Agent协作框架
CrewAI：角色扮演Agent框架

Role-playing Agents（角色扮演智能体）

定义：给AI赋予特定身份和性格进行协作

详细解释：Role-playing Agents让多个AI扮演不同角色，各司其职，协同完成复杂任务。就像一个团队，有产品经理、开发、测试等角色。

应用场景：

软件开发团队：产品经理、架构师、开发、测试
内容创作：策划、写作、编辑、审核
商业分析：数据分析师、策略师、执行者

Workflow（工作流）

定义：多个任务按预定顺序自动执行

详细解释：Workflow是预定义的任务执行流程，每个步骤明确，适合确定性强的场景。与Agent的自主规划不同，Workflow更像"菜谱"，按步骤执行。

特点：

流程固定，可预测
易于调试和监控
适合标准化任务

Function Calling（函数调用）

定义：让AI调用外部工具（查天气、操作数据库等）

详细解释：Function Calling让大模型能够"动手做事"，通过调用预定义的函数来获取实时数据或执行操作。

工作原理：

开发者定义可用函数及其参数
用户提问时，模型判断是否需要调用函数
模型生成函数调用指令（函数名+参数）
系统执行函数并返回结果
模型基于结果生成最终回答

Skill（技能）

定义：封装多个工具或步骤的复合能力

详细解释：Skill是比Function更高层次的抽象，将多个相关工具组合成一个完整的技能包。例如"数据分析技能"可能包含数据获取、清洗、分析、可视化等多个步骤。

MCP（Model Context Protocol）

定义：AI界的USB-C接口，统一标准连接各种数据源和工具

详细解释：MCP是Anthropic在2024年推出的开放协议，解决了AI应用与外部数据源、工具连接的标准化问题。就像USB-C统一了充电接口，MCP统一了AI与外部世界的连接方式。

核心价值：

标准化：一次开发，到处使用
解耦：AI应用与数据源独立演进
生态：社区贡献各种MCP服务器

A2A Protocol（Agent-to-Agent）

定义：不同AI Agent之间互相发现、沟通和协作的协议

详细解释：A2A协议是Google在2025年提出的标准，让不同厂商、不同框架开发的Agent能够互相通信和协作，就像不同品牌的手机可以互相打电话一样。

A2A vs MCP：

MCP：AI的手和脚
     连接数据源和工具（数据库、文件、API）
     解决"AI怎么访问外部资源"

A2A：AI的嘴和耳
     Agent之间沟通协作
     解决"AI之间怎么配合"

四、推理范式

Chain of Thought（思维链）

定义：让AI把思考过程一步步写出来

详细解释：CoT是最基础的推理增强技术，通过让模型显式地展示中间推理步骤，显著提升复杂问题的解决能力。

Zero-shot CoT：

prompt = "问题：[复杂问题]\n请一步步思考并回答。"

应用场景：数学计算、逻辑推理、复杂决策、多步骤任务

Self-ask（自问式推理）

定义：AI先向自己提问，拆分子问题逐个解决

详细解释：Self-ask是CoT的进阶版，模型主动生成子问题，通过问答循环逐步解决复杂问题。

工作流程：

复杂问题 → 生成子问题 → 回答子问题 → 综合答案

Plan-and-Execute（规划与执行）

定义：先制定完整计划再分步执行

详细解释：Plan-and-Execute将任务分为两个阶段：规划阶段制定完整方案，执行阶段按计划逐步实施。

ReAct（推理+行动）

定义：边思考边行动，推理和交互交替进行

详细解释：ReAct（Reasoning + Acting）结合了推理和行动，模型在思考过程中可以调用工具获取信息，实现"想-做-想-做"的循环。

ReAct循环：

Thought（思考）→ Action（行动）→ Observation（观察）→ Thought → ...

ToT（思维树）

定义：同时生成多条思路分支，评估后选最优

详细解释：Tree of Thoughts将推理过程扩展为树状结构，模型可以探索多条可能的解决路径，通过评估选择最优方案。

应用场景：数学证明、游戏策略、创意生成

Reflexion（迭代优化）

定义：执行任务后反思错误，下次做得更好

详细解释：Reflexion引入自我反思机制，模型完成任务后会评估结果，发现问题，并在下一次尝试中改进。

Reflexion循环：

任务 → 执行 → 反思 → 改进 → 再执行 → ...

五、知识增强

Embedding（嵌入）

定义：把文字、图片等变成数字向量，语义相近的内容向量也相近

详细解释：Embedding是将离散信息（文字、图片等）转换为连续向量表示的技术。这些向量在高维空间中，语义相似的内容距离相近。

代码示例：

from openai import OpenAI
import numpy as np

client = OpenAI()

def get_embedding(text: str) -> list:
    response = client.embeddings.create(
        model="text-embedding-3-small",
        input=text
    )
    return response.data[0].embedding

def cosine_similarity(vec1: list, vec2: list) -> float:
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

cat = get_embedding("猫")
dog = get_embedding("狗")
print(f"猫 vs 狗相似度: {cosine_similarity(cat, dog):.4f}")  # 约0.85

Vector Database（向量数据库）

定义：专门存储和查找高维向量的数据库

详细解释：向量数据库是专门为向量检索设计的数据库，能够高效地在海量向量中找到最相似的向量（最近邻搜索）。

主流向量数据库：

数据库	特点
Pinecone	云托管，易用
Milvus	开源，高性能
Weaviate	支持混合搜索
Chroma	轻量级，Python原生
Qdrant	Rust编写，高性能

RAG（检索增强生成）

定义：给AI配上知识库，先查资料再回答

详细解释：RAG（Retrieval-Augmented Generation）是解决大模型知识局限性的核心技术。模型在回答问题时，先从知识库检索相关信息，再基于检索内容生成答案。

RAG vs Fine-tuning：

RAG：开卷考试（查资料答题）
优点：实时更新知识、无需训练、成本低
缺点：依赖检索质量、上下文长度限制

Fine-tuning：闭卷学霸（知识内化）
优点：知识内化、响应快、风格定制
缺点：训练成本高、知识难更新

Fine-tuning（微调）

定义：在通用模型基础上用特定领域数据继续训练

详细解释：Fine-tuning是在预训练模型的基础上，使用特定领域的数据进行进一步训练，使模型适应特定任务或领域。

微调类型：

全参数微调：更新所有模型参数（成本高）
LoRA：低秩适应，只更新少量参数（高效）
QLoRA：量化+LoRA，进一步降低成本

六、模型基础与优化

NLP（自然语言处理）

定义：让计算机理解、生成和处理人类语言

核心任务：

文本分类：判断文本类别
情感分析：识别文本情感倾向
命名实体识别：提取人名、地名、机构名等
机器翻译：跨语言翻译
问答系统：回答用户问题
文本生成：生成连贯文本

NLP发展历程：

1950s-1980s: 规则系统
1990s-2000s: 统计方法
2010s: 深度学习（RNN、LSTM）
2018+: Transformer时代（BERT、GPT）

CV（计算机视觉）

定义：让计算机能"看懂"图像和视频

核心任务：

图像分类：判断图像类别
目标检测：识别图像中物体的位置和类别
图像分割：精确划分图像区域
人脸识别：识别和验证人脸
姿态估计：检测人体姿态和动作
图像生成：生成逼真图像

CNN（卷积神经网络）

定义：专门处理图像的神经网络

核心组件：

卷积层：提取局部特征（边缘、纹理等）
池化层：降低维度，保留关键信息
全连接层：进行最终分类

经典CNN架构：

LeNet：最早的CNN
AlexNet：2012年ImageNet冠军
VGG：深层CNN，结构简洁
ResNet：引入残差连接
EfficientNet：高效平衡深度、宽度、分辨率

RNN（循环神经网络）

定义：有记忆的神经网络，处理序列数据

RNN特点：

处理序列数据
隐藏状态传递历史信息
输出依赖当前输入和历史状态

RNN问题：

长序列记忆衰减
梯度消失/爆炸问题
训练效率低（无法并行）

LSTM（长短期记忆）

定义：带笔记本的RNN，能记住长距离关键信息

详细解释：LSTM是RNN的改进版本，引入了"门"机制和"记忆单元"，能够有效保存长距离信息，解决了RNN的记忆衰减问题。

LSTM三大门：

遗忘门：决定丢弃哪些旧信息
输入门：决定保存哪些新信息
输出门：决定输出哪些信息

应用：文本生成、语音识别、机器翻译、时间序列预测

Transformer

定义：一眼看完整个句子并自动划重点的架构

详细解释：Transformer是现代大模型的基础架构，通过自注意力机制（Self-Attention）并行处理整个序列，彻底改变了NLP领域。

核心创新：

自注意力机制：每个词都能关注序列中所有其他词
位置编码：保留序列位置信息
并行计算：不像RNN逐个处理，Transformer并行处理

Transformer优势：

并行计算，训练速度快
能捕捉长距离依赖
成为GPT、BERT、LLaMA等大模型的基础

BERT

定义：双向语言模型，像做完形填空一样理解上下文

详细解释：BERT（Bidirectional Encoder Representations from Transformers）是Google提出的预训练模型，通过双向理解上下文，在多项NLP任务上取得突破。

BERT特点：

双向理解：同时看左边和右边的上下文
预训练+微调：先大规模预训练，再针对任务微调
Masked LM：随机遮住部分词，让模型预测

YOLO（实时目标检测）

定义：看一眼图片就说出所有物体及其位置

详细解释：YOLO（You Only Look Once）是实时目标检测算法，将目标检测作为回归问题解决，速度极快，适合实时应用。

YOLO特点：

实时检测：速度极快（YOLOv8可达100+ FPS）
端到端：一次前向传播完成检测
多目标：同时检测多个物体

MoE（专家混合）

定义：大模型里住很多小专家，来什么问题派对应专家

详细解释：MoE（Mixture of Experts）是一种模型架构，将大模型分解为多个"专家"子网络，根据输入动态选择激活哪些专家。

MoE优势：

参数效率：总参数大，但每次只激活部分参数
专业化：不同专家处理不同任务
可扩展：容易增加新专家

实际应用：

GPT-4：使用MoE架构
Mixtral 8x7B：开源MoE模型

RLHF（人类反馈强化学习）

定义：用人类打分训练AI，让它更符合人类偏好

详细解释：RLHF（Reinforcement Learning from Human Feedback）是训练大模型的关键技术，通过人类反馈让模型输出更符合人类期望。

RLHF三步骤：

预训练模型：用海量文本训练基础模型
训练奖励模型：人类对模型输出打分，训练一个能预测人类偏好的奖励模型
强化学习优化：用奖励模型的分数作为奖励，用PPO算法优化原模型

RLHF替代方案：

DPO（Direct Preference Optimization）：直接优化，无需奖励模型
RLAIF（RL from AI Feedback）：用AI代替人类反馈

核心概念对比速查

对比项	说明
AGI vs ASI	AGI = 人类水平全能AI；ASI = 超越全人类总和的超级AI
RAG vs Fine-tuning	RAG = 开卷考试（查资料答题）；Fine-tuning = 闭卷学霸（知识内化）
Agent vs Workflow vs ReAct	Workflow = 菜谱（固定流程）；ReAct = 大厨（边做边调整）；Agent = 私人厨师（完全自主）
Function vs Skill vs MCP	Function = 单个工具；Skill = 工具箱；MCP = 工具箱接口标准
MCP vs A2A	MCP = AI的手脚（连数据源和工具）；A2A = AI的嘴（Agent之间沟通协作）
推理范式对比	CoT = 一步步想；Self-ask = 自问自答；Plan-and-Execute = 先计划再干；ReAct = 边想边干；ToT = 多条路试；Reflexion = 干完反思再改进
CNN vs RNN vs Transformer	CNN看图（图像）；RNN读序列（有记忆）；Transformer一目十行（注意力机制）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

剪流AI员工手机如何破解小公司拓客难题？深度解析AI赋能销售增长新范式

在AI技术浪潮席卷各行各业的今天，剪流AI员工手机为代表的企业级智能化工具，正为小公司提供了一条“换道超车”的路径。它不仅仅是一部手机，更是一套驱动企业增长的自动化引擎和面向未来的决策性优势。通过将AI深度融入销售拓客的全流程，它系统性地解决了小公司在获客源头、销售过程、客户管理和资产安全等方面的核心痛点，将老板从琐碎的管理事务和增长焦虑中解放出来，让团队能更专注于创造价值的核心环节。因此，对于“

AtomGit开源社区

OPENPi模型源码AI解读

层 AdaLN 条件作用 L0-L3 调制底层特征提取："当前状态是双臂张开 → 视觉注意力集中在桌面中央" L4-L8 调制语义融合："当前状态是已定位 → 文本 prompt 和图像更紧密对齐" L9-L14 调制动作规划："当前位置在 (x,y,z) → 规划路径从这里开始" L15-L17 调制最终输出："当前力传感器读数为 0 → 输出抓握前的动作"

AtomGit开源社区

AI聊天机器人如何推荐品牌？揭秘推荐机制与优化策略

随着AI聊天机器人成为用户获取产品推荐的重要渠道，品牌方需掌握AI的推荐机制以提升曝光度。AI主要依赖训练数据、联网搜索和用户历史三个信息来源，其中结构化标记、权威来源和语义匹配是内容被发现的关键。品牌应优化官网和百科内容，获取权威评测，针对高频问题制作FAQ，并运用语义优化提升关联性。监测工具可帮助评估AI推荐效果，但需注意结果的动态性。通过精准优化，即使小众品牌也能提升在AI推荐中的可见度。

AtomGit开源社区

所有评论(0)

查看更多评论

AI-好学者

@weixin_51955414

已为社区贡献4条内容

AI技术名词解释

AI-好学者

AI技术名词解释

一、AI愿景与目标

AGI（通用人工智能）

ASI（超级人工智能）

AIGC（AI Generated Content）

Vibe Coding（氛围编程）

二、提示与交互

Prompt Engineering（提示词工程）

Context Engineering（上下文工程）

Harness Engineering（驾驭工程）

HITL（人在回路）

三、Agent架构与协作

Agent（AI智能体）

Role-playing Agents（角色扮演智能体）

Workflow（工作流）

Function Calling（函数调用）

Skill（技能）

MCP（Model Context Protocol）

A2A Protocol（Agent-to-Agent）

四、推理范式

Chain of Thought（思维链）

Self-ask（自问式推理）

Plan-and-Execute（规划与执行）

ReAct（推理+行动）

ToT（思维树）

Reflexion（迭代优化）

五、知识增强

Embedding（嵌入）

Vector Database（向量数据库）

RAG（检索增强生成）

Fine-tuning（微调）

六、模型基础与优化

NLP（自然语言处理）

CV（计算机视觉）

CNN（卷积神经网络）

RNN（循环神经网络）

LSTM（长短期记忆）

Transformer

BERT

YOLO（实时目标检测）

MoE（专家混合）

RLHF（人类反馈强化学习）

核心概念对比速查

所有评论(0)

温馨提示：您尚未绑定手机号

AI-好学者