AI技术名词解释

一、AI愿景与目标

AGI(通用人工智能)

定义:像人一样什么都能学、什么都能干的全能AI,目前尚未实现

详细解释:AGI是AI研究的终极目标,指能够像人类一样在各种任务中表现出智能的系统。与当前的"窄AI"(Narrow AI)不同,AGI能够:

  • 跨领域迁移学习(学会开车后能更快学会开船)
  • 自主设定目标和规划
  • 理解抽象概念并进行推理
  • 具备常识和创造力

示例

窄AI:AlphaGo只能下围棋,不能下象棋
AGI(理想):学会围棋后,能自己推导出象棋规则并下棋

当前状态:GPT-4、Claude等大模型展现出AGI的雏形,但仍缺乏真正的自主性和跨领域泛化能力。


ASI(超级人工智能)

定义:智力全面超越全人类总和的AI,属于科幻范畴

详细解释:ASI是超越AGI的下一个阶段,其智力水平远超人类最聪明个体的总和。特征包括:

  • 解决人类无法解决的复杂问题(如统一量子力学和相对论)
  • 在所有认知任务上碾压人类
  • 可能具备自我改进能力(递归自我优化)

风险与讨论:ASI可能带来存在性风险,是AI安全研究的核心议题。


AIGC(AI Generated Content)

定义:用AI自动生成文字、图片、音频、视频等内容

详细解释:AIGC是内容生产方式的革命,从PGC(专业生产)、UGC(用户生产)进化到AIGC(AI生产)。

应用示例

# 文字生成 - 使用OpenAI API
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "写一首关于春天的诗"}]
)
print(response.choices[0].message.content)

# 图片生成 - 使用DALL-E
image = client.images.generate(
    model="dall-e-3",
    prompt="一只在樱花树下读书的猫",
    size="1024x1024"
)
print(image.data[0].url)

代表工具

  • 文字:ChatGPT、Claude、文心一言
  • 图片:Midjourney、Stable Diffusion、DALL-E
  • 视频:Sora、Runway、Pika
  • 音频:ElevenLabs、Azure TTS

Vibe Coding(氛围编程)

定义:用自然语言描述功能,AI生成代码

详细解释:Vibe Coding是Andrej Karpathy在2025年提出的新概念,指开发者不再逐行编写代码,而是通过自然语言描述意图,让AI完成编码工作。

特点

  • 开发者角色从"码农"转变为"产品经理+架构师"
  • 更关注"要做什么"而非"怎么做"
  • 降低编程门槛,让非专业人士也能开发应用

示例

传统编程:写500行代码实现一个登录页面
Vibe Coding:告诉AI"做一个现代风格的登录页面,支持邮箱和手机号登录,
            有记住密码功能,适配移动端"

二、提示与交互

Prompt Engineering(提示词工程)

定义:巧妙设计提问方式,引导AI给出更好回答

详细解释:提示词工程是与大模型交互的核心技能,通过精心设计的提示词,可以显著提升AI输出的质量和准确性。

核心技巧

  1. 角色设定:给AI一个明确的身份
  2. 任务明确:清楚说明要做什么
  3. 提供示例:Few-shot learning
  4. 分步引导:Chain of Thought
  5. 输出格式:指定返回格式

示例

# ❌ 糟糕的提示词
prompt = "写一篇文章"

# ✅ 优秀的提示词
prompt = """
你是一位资深的科技记者,擅长用通俗易懂的语言解释复杂技术。

任务:写一篇关于"大语言模型原理"的科普文章

要求:
1. 目标读者:非技术背景的普通大众
2. 字数:800-1000字
3. 风格:轻松幽默,多用比喻
4. 结构:
   - 开头:用一个生活中的例子引入
   - 中间:解释核心原理(预测下一个字)
   - 结尾:展望未来应用

请用Markdown格式输出。
"""

Context Engineering(上下文工程)

定义:设计和管理喂给AI的上下文内容

详细解释:上下文工程比提示词工程更进一步,关注如何组织、筛选和管理输入给AI的所有信息,包括对话历史、知识库内容、系统指令等。

核心要素

  1. 系统提示(System Prompt):设定AI的行为准则
  2. 对话历史:维护多轮对话的上下文
  3. 知识注入:通过RAG等方式注入相关知识
  4. 上下文窗口管理:在有限token内最大化有效信息

示例

from openai import OpenAI
client = OpenAI()

system_prompt = """
你是公司的客服AI助手,名叫"小智"。

【公司信息】
- 公司名称:智云科技
- 主营业务:云计算服务
- 客服电话:400-123-4567

【回答规则】
1. 语气友好专业
2. 不确定的问题转人工
3. 涉及退款需询问订单号
"""

messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "我想退款"},
    {"role": "assistant", "content": "好的,请问您的订单号是多少?"},
    {"role": "user", "content": "是ORD123456"}
]

response = client.chat.completions.create(
    model="gpt-4",
    messages=messages
)

Harness Engineering(驾驭工程)

定义:标准化框架管理AI的输入输出和错误处理

详细解释:Harness Engineering是构建可靠AI应用的关键,指通过标准化框架来约束和管理AI系统的行为,确保输出可控、错误可处理、行为可预测。

核心组件

  1. 输入验证:过滤有害输入,格式化用户请求
  2. 输出约束:强制AI按指定格式输出
  3. 错误处理:捕获异常,优雅降级
  4. 监控日志:记录AI行为,便于调试

HITL(人在回路)

定义:AI处理常规任务,没把握的事转交人工

详细解释:Human-in-the-Loop是一种AI与人类协作的模式,AI负责处理大部分确定性任务,在遇到不确定或高风险情况时,主动请求人工介入。

应用场景

  • 内容审核:AI自动审核,敏感内容人工复核
  • 客服系统:AI处理常见问题,复杂问题转人工
  • 医疗诊断:AI辅助诊断,医生最终确认
  • 自动驾驶:AI常规驾驶,极端情况人工接管

三、Agent架构与协作

Agent(AI智能体)

定义:能自主感知环境、规划行动并完成复杂任务的AI系统

详细解释:Agent是大模型应用的高级形态,不同于简单的问答,Agent能够:

  • 感知:理解环境和用户需求
  • 规划:分解复杂任务,制定执行计划
  • 行动:调用工具、执行操作
  • 反思:评估结果,调整策略

代表框架

  • LangChain:最流行的Agent开发框架
  • AutoGPT:自主AI Agent先驱
  • MetaGPT:多Agent协作框架
  • CrewAI:角色扮演Agent框架

Role-playing Agents(角色扮演智能体)

定义:给AI赋予特定身份和性格进行协作

详细解释:Role-playing Agents让多个AI扮演不同角色,各司其职,协同完成复杂任务。就像一个团队,有产品经理、开发、测试等角色。

应用场景

  • 软件开发团队:产品经理、架构师、开发、测试
  • 内容创作:策划、写作、编辑、审核
  • 商业分析:数据分析师、策略师、执行者

Workflow(工作流)

定义:多个任务按预定顺序自动执行

详细解释:Workflow是预定义的任务执行流程,每个步骤明确,适合确定性强的场景。与Agent的自主规划不同,Workflow更像"菜谱",按步骤执行。

特点

  • 流程固定,可预测
  • 易于调试和监控
  • 适合标准化任务

Function Calling(函数调用)

定义:让AI调用外部工具(查天气、操作数据库等)

详细解释:Function Calling让大模型能够"动手做事",通过调用预定义的函数来获取实时数据或执行操作。

工作原理

  1. 开发者定义可用函数及其参数
  2. 用户提问时,模型判断是否需要调用函数
  3. 模型生成函数调用指令(函数名+参数)
  4. 系统执行函数并返回结果
  5. 模型基于结果生成最终回答

Skill(技能)

定义:封装多个工具或步骤的复合能力

详细解释:Skill是比Function更高层次的抽象,将多个相关工具组合成一个完整的技能包。例如"数据分析技能"可能包含数据获取、清洗、分析、可视化等多个步骤。


MCP(Model Context Protocol)

定义:AI界的USB-C接口,统一标准连接各种数据源和工具

详细解释:MCP是Anthropic在2024年推出的开放协议,解决了AI应用与外部数据源、工具连接的标准化问题。就像USB-C统一了充电接口,MCP统一了AI与外部世界的连接方式。

核心价值

  • 标准化:一次开发,到处使用
  • 解耦:AI应用与数据源独立演进
  • 生态:社区贡献各种MCP服务器

A2A Protocol(Agent-to-Agent)

定义:不同AI Agent之间互相发现、沟通和协作的协议

详细解释:A2A协议是Google在2025年提出的标准,让不同厂商、不同框架开发的Agent能够互相通信和协作,就像不同品牌的手机可以互相打电话一样。

A2A vs MCP

MCP:AI的手和脚
     连接数据源和工具(数据库、文件、API)
     解决"AI怎么访问外部资源"

A2A:AI的嘴和耳
     Agent之间沟通协作
     解决"AI之间怎么配合"

四、推理范式

Chain of Thought(思维链)

定义:让AI把思考过程一步步写出来

详细解释:CoT是最基础的推理增强技术,通过让模型显式地展示中间推理步骤,显著提升复杂问题的解决能力。

Zero-shot CoT

prompt = "问题:[复杂问题]\n请一步步思考并回答。"

应用场景:数学计算、逻辑推理、复杂决策、多步骤任务


Self-ask(自问式推理)

定义:AI先向自己提问,拆分子问题逐个解决

详细解释:Self-ask是CoT的进阶版,模型主动生成子问题,通过问答循环逐步解决复杂问题。

工作流程

复杂问题 → 生成子问题 → 回答子问题 → 综合答案

Plan-and-Execute(规划与执行)

定义:先制定完整计划再分步执行

详细解释:Plan-and-Execute将任务分为两个阶段:规划阶段制定完整方案,执行阶段按计划逐步实施。


ReAct(推理+行动)

定义:边思考边行动,推理和交互交替进行

详细解释:ReAct(Reasoning + Acting)结合了推理和行动,模型在思考过程中可以调用工具获取信息,实现"想-做-想-做"的循环。

ReAct循环

Thought(思考)→ Action(行动)→ Observation(观察)→ Thought → ...

ToT(思维树)

定义:同时生成多条思路分支,评估后选最优

详细解释:Tree of Thoughts将推理过程扩展为树状结构,模型可以探索多条可能的解决路径,通过评估选择最优方案。

应用场景:数学证明、游戏策略、创意生成


Reflexion(迭代优化)

定义:执行任务后反思错误,下次做得更好

详细解释:Reflexion引入自我反思机制,模型完成任务后会评估结果,发现问题,并在下一次尝试中改进。

Reflexion循环

任务 → 执行 → 反思 → 改进 → 再执行 → ...

五、知识增强

Embedding(嵌入)

定义:把文字、图片等变成数字向量,语义相近的内容向量也相近

详细解释:Embedding是将离散信息(文字、图片等)转换为连续向量表示的技术。这些向量在高维空间中,语义相似的内容距离相近。

代码示例

from openai import OpenAI
import numpy as np

client = OpenAI()

def get_embedding(text: str) -> list:
    response = client.embeddings.create(
        model="text-embedding-3-small",
        input=text
    )
    return response.data[0].embedding

def cosine_similarity(vec1: list, vec2: list) -> float:
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

cat = get_embedding("猫")
dog = get_embedding("狗")
print(f"猫 vs 狗相似度: {cosine_similarity(cat, dog):.4f}")  # 约0.85

Vector Database(向量数据库)

定义:专门存储和查找高维向量的数据库

详细解释:向量数据库是专门为向量检索设计的数据库,能够高效地在海量向量中找到最相似的向量(最近邻搜索)。

主流向量数据库

数据库 特点
Pinecone 云托管,易用
Milvus 开源,高性能
Weaviate 支持混合搜索
Chroma 轻量级,Python原生
Qdrant Rust编写,高性能

RAG(检索增强生成)

定义:给AI配上知识库,先查资料再回答

详细解释:RAG(Retrieval-Augmented Generation)是解决大模型知识局限性的核心技术。模型在回答问题时,先从知识库检索相关信息,再基于检索内容生成答案。

RAG vs Fine-tuning

RAG:开卷考试(查资料答题)
优点:实时更新知识、无需训练、成本低
缺点:依赖检索质量、上下文长度限制

Fine-tuning:闭卷学霸(知识内化)
优点:知识内化、响应快、风格定制
缺点:训练成本高、知识难更新

Fine-tuning(微调)

定义:在通用模型基础上用特定领域数据继续训练

详细解释:Fine-tuning是在预训练模型的基础上,使用特定领域的数据进行进一步训练,使模型适应特定任务或领域。

微调类型

  1. 全参数微调:更新所有模型参数(成本高)
  2. LoRA:低秩适应,只更新少量参数(高效)
  3. QLoRA:量化+LoRA,进一步降低成本

六、模型基础与优化

NLP(自然语言处理)

定义:让计算机理解、生成和处理人类语言

核心任务

  • 文本分类:判断文本类别
  • 情感分析:识别文本情感倾向
  • 命名实体识别:提取人名、地名、机构名等
  • 机器翻译:跨语言翻译
  • 问答系统:回答用户问题
  • 文本生成:生成连贯文本

NLP发展历程

1950s-1980s: 规则系统
1990s-2000s: 统计方法
2010s: 深度学习(RNN、LSTM)
2018+: Transformer时代(BERT、GPT)

CV(计算机视觉)

定义:让计算机能"看懂"图像和视频

核心任务

  • 图像分类:判断图像类别
  • 目标检测:识别图像中物体的位置和类别
  • 图像分割:精确划分图像区域
  • 人脸识别:识别和验证人脸
  • 姿态估计:检测人体姿态和动作
  • 图像生成:生成逼真图像

CNN(卷积神经网络)

定义:专门处理图像的神经网络

核心组件

  • 卷积层:提取局部特征(边缘、纹理等)
  • 池化层:降低维度,保留关键信息
  • 全连接层:进行最终分类

经典CNN架构

  • LeNet:最早的CNN
  • AlexNet:2012年ImageNet冠军
  • VGG:深层CNN,结构简洁
  • ResNet:引入残差连接
  • EfficientNet:高效平衡深度、宽度、分辨率

RNN(循环神经网络)

定义:有记忆的神经网络,处理序列数据

RNN特点

  • 处理序列数据
  • 隐藏状态传递历史信息
  • 输出依赖当前输入和历史状态

RNN问题

  • 长序列记忆衰减
  • 梯度消失/爆炸问题
  • 训练效率低(无法并行)

LSTM(长短期记忆)

定义:带笔记本的RNN,能记住长距离关键信息

详细解释:LSTM是RNN的改进版本,引入了"门"机制和"记忆单元",能够有效保存长距离信息,解决了RNN的记忆衰减问题。

LSTM三大门

  1. 遗忘门:决定丢弃哪些旧信息
  2. 输入门:决定保存哪些新信息
  3. 输出门:决定输出哪些信息

应用:文本生成、语音识别、机器翻译、时间序列预测


Transformer

定义:一眼看完整个句子并自动划重点的架构

详细解释:Transformer是现代大模型的基础架构,通过自注意力机制(Self-Attention)并行处理整个序列,彻底改变了NLP领域。

核心创新

  1. 自注意力机制:每个词都能关注序列中所有其他词
  2. 位置编码:保留序列位置信息
  3. 并行计算:不像RNN逐个处理,Transformer并行处理

Transformer优势

  • 并行计算,训练速度快
  • 能捕捉长距离依赖
  • 成为GPT、BERT、LLaMA等大模型的基础

BERT

定义:双向语言模型,像做完形填空一样理解上下文

详细解释:BERT(Bidirectional Encoder Representations from Transformers)是Google提出的预训练模型,通过双向理解上下文,在多项NLP任务上取得突破。

BERT特点

  • 双向理解:同时看左边和右边的上下文
  • 预训练+微调:先大规模预训练,再针对任务微调
  • Masked LM:随机遮住部分词,让模型预测

YOLO(实时目标检测)

定义:看一眼图片就说出所有物体及其位置

详细解释:YOLO(You Only Look Once)是实时目标检测算法,将目标检测作为回归问题解决,速度极快,适合实时应用。

YOLO特点

  • 实时检测:速度极快(YOLOv8可达100+ FPS)
  • 端到端:一次前向传播完成检测
  • 多目标:同时检测多个物体

MoE(专家混合)

定义:大模型里住很多小专家,来什么问题派对应专家

详细解释:MoE(Mixture of Experts)是一种模型架构,将大模型分解为多个"专家"子网络,根据输入动态选择激活哪些专家。

MoE优势

  • 参数效率:总参数大,但每次只激活部分参数
  • 专业化:不同专家处理不同任务
  • 可扩展:容易增加新专家

实际应用

  • GPT-4:使用MoE架构
  • Mixtral 8x7B:开源MoE模型

RLHF(人类反馈强化学习)

定义:用人类打分训练AI,让它更符合人类偏好

详细解释:RLHF(Reinforcement Learning from Human Feedback)是训练大模型的关键技术,通过人类反馈让模型输出更符合人类期望。

RLHF三步骤

  1. 预训练模型:用海量文本训练基础模型
  2. 训练奖励模型:人类对模型输出打分,训练一个能预测人类偏好的奖励模型
  3. 强化学习优化:用奖励模型的分数作为奖励,用PPO算法优化原模型

RLHF替代方案

  • DPO(Direct Preference Optimization):直接优化,无需奖励模型
  • RLAIF(RL from AI Feedback):用AI代替人类反馈

核心概念对比速查

对比项 说明
AGI vs ASI AGI = 人类水平全能AI;ASI = 超越全人类总和的超级AI
RAG vs Fine-tuning RAG = 开卷考试(查资料答题);Fine-tuning = 闭卷学霸(知识内化)
Agent vs Workflow vs ReAct Workflow = 菜谱(固定流程);ReAct = 大厨(边做边调整);Agent = 私人厨师(完全自主)
Function vs Skill vs MCP Function = 单个工具;Skill = 工具箱;MCP = 工具箱接口标准
MCP vs A2A MCP = AI的手脚(连数据源和工具);A2A = AI的嘴(Agent之间沟通协作)
推理范式对比 CoT = 一步步想;Self-ask = 自问自答;Plan-and-Execute = 先计划再干;ReAct = 边想边干;ToT = 多条路试;Reflexion = 干完反思再改进
CNN vs RNN vs Transformer CNN看图(图像);RNN读序列(有记忆);Transformer一目十行(注意力机制)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐