随着人工智能技术的飞速发展,大语言模型(LLM)已从单纯的研究课题演变为驱动各行各业创新的核心引擎。构建一个成熟、可靠且高效的 LLM 应用,不仅仅依赖于模型本身,更需要一个庞大且复杂的技术生态栈支持。本文旨在梳理大模型及其应用生态中的关键技术栈,明确其概念定义,划分技术领域,并解析各技术栈之间的依赖与协作关系。

最后更新:2026 年 5 月 — 涵盖 6 大技术层、61 个核心概念。新增 SSM/Mamba 架构、SFT、Constitutional AI、语义缓存、推理负载均衡、提示注入攻击等概念,以及生产部署检查清单。

目录

1. 核心概念名称和定义

在深入技术栈之前,我们需要明确生态中基础术语的定义。以下基于行业标准及上下文整理出的核心概念:

成熟度说明:🟢 成熟生产级 · 🟡 快速增长期 · 🔵 前沿探索期

1.1 模型与架构

概念名称 定义简述 成熟度
大模型 (LLM) 基于海量数据训练的深度学习模型,具备理解和生成人类语言的能力。 🟢
稠密模型 (Dense Model) 所有参数参与每次计算的神经网络架构。 🟢
混合专家模型 (MoE) 稀疏架构,对每个输入仅激活部分专家子网络,平衡规模与效率(如 Mixtral、Llama 4 Maverick)。 🟡
多模态 (Multimodal) 处理和融合文本、图像、音频、视频等多种数据模态的能力(如 GPT-4o、Gemini 2.5)。 🟡
推理模型 (Reasoning Model) 通过内部思维链进行深度推理的模型范式,在推理阶段投入更多计算以提升复杂任务表现(如 OpenAI o 系列、DeepSeek-R1)。 🟡
小语言模型 (SLM) 参数量较小但经过高度优化的模型,适合端侧和低成本部署(如 Phi、Gemma、Qwen 系列)。 🟡
状态空间模型 (SSM/Mamba) 基于状态空间方程的序列建模架构,以线性复杂度替代 Transformer 的二次方注意力,适合超长序列处理(如 Mamba、Mamba-2、Jamba)。 🔵

→ 相关:模型架构的选择直接影响 1.2 训练策略1.3 推理加速 的技术路线。

1.2 训练与优化

概念名称 定义简述 成熟度
监督微调 (SFT) 使用标注好的"指令-回答"数据对模型进行有监督训练,是 RLHF/DPO 等对齐方法之前的必要步骤,教会模型遵循指令的基本格式和能力。 🟢
微调 (Fine-tuning) 使用特定数据在预训练模型基础上进一步训练,以适应新任务。 🟢
参数高效微调 (PEFT) 仅更新少量参数(如 LoRA、QLoRA)即可适配新任务,大幅降低微调成本。 🟢
RLHF 利用人类反馈作为奖励信号,优化模型行为符合人类价值观。 🟢
DPO (直接偏好优化) 无需训练奖励模型,直接从人类偏好数据优化模型策略,比 RLHF 更简洁稳定,已成为主流对齐方法之一。 🟢
RLVR (可验证奖励强化学习) 使用可自动验证的奖励信号(如代码测试用例、数学答案)替代人类偏好进行强化学习,是 2025-2026 年的重要范式转变。 🔵
模型蒸馏 (Knowledge Distillation) 将大模型知识迁移至小模型,压缩规模并保持性能。 🟢
模型压缩 (Model Compression) 通过剪枝、量化等技术减小模型规模,提升效率。 🟢
对齐 (Alignment) 调整模型行为,使其与人类意图和社会规范保持一致。 🟢
安全对齐 (Safety Alignment) 针对有害内容的对齐机制,确保输出安全、无害。 🟡
Constitutional AI (CAI) 通过预定义原则(“宪法”)让模型自我修正输出,减少对人类反馈标注的依赖,由 Anthropic 提出。 🟡
持续学习 (Continual Learning) 模型在序列任务中持续学习新知识,避免灾难性遗忘 (Catastrophic Forgetting)。 🔵
领域适应 (Domain Adaptation) 调整模型以适应新领域数据分布的技术。 🟢
合成数据 (Synthetic Data) 利用模型生成高质量训练数据,缓解真实数据稀缺问题,已成为 2025-2026 年训练数据的核心来源之一。 🟡
分布式训练 (Distributed Training) 将训练任务分布到多 GPU/多节点上执行,包括数据并行、模型并行、流水线并行和张量并行等策略。 🟢

→ 相关:训练产出的模型权重进入 1.3 推理与加速;SFT 和 RLHF/DPO 的数据质量依赖 1.4 检索与知识 中的数据管道。

1.3 推理与加速

概念名称 定义简述 成熟度
推理优化 (Inference Optimization) 提升模型推理速度和吞吐量的技术集合,包括 KV Cache 管理、推测解码、批处理策略等。 🟢
推测解码 (Speculative Decoding) 使用小模型快速生成候选 token,由大模型并行验证,实现 2-3x 推理加速。 🟡
测试时计算 (Test-time Compute) 在推理阶段投入更多计算资源(如多次采样、思维链搜索)来提升输出质量,而非仅依赖训练阶段。 🔵
量化推理 (Quantized Inference) 将模型权重从高精度(FP16/BF16)压缩为低精度(INT4/INT8/FP8),降低显存占用和计算成本。 🟢
语义缓存 (Semantic Cache) 对语义相似的查询命中缓存结果而非重新推理,大幅降低重复查询的成本和延迟(如 GPTCache)。 🟡
推理负载均衡 (Inference Load Balancing) 在多 GPU/多节点间动态分配推理请求,优化资源利用率和响应延迟,是大规模部署的必备基础设施。 🟢

→ 相关:推理服务为 1.5 应用与编排 提供底层算力;推理质量和安全由 1.6 治理与运维 保障。

1.4 检索与知识

概念名称 定义简述 成熟度
RAG 检索增强生成,结合外部知识库检索与文本生成,提升准确性。 🟢
RAG 数据管道 (RAG Data Pipeline) RAG 系统的数据处理流程,包括文档解析(PDF/HTML/代码等)、分块策略(Chunking)、元数据提取和索引构建,直接决定检索质量。 🟢
嵌入 (Embedding) 将离散数据映射为低维连续向量,捕获语义相似性。 🟢
向量数据库 (Vector Database) 专为高效存储和检索高维向量(嵌入)设计的数据库(如 Milvus、Pinecone、Weaviate)。 🟢
混合检索 (Hybrid Search) 结合稠密向量检索(语义匹配)与稀疏检索(如 BM25 关键词匹配),提升召回率与准确率。 🟢
GraphRAG 将知识图谱的结构化关系与 RAG 检索结合,利用图结构增强检索的关联推理能力。 🔵
知识图谱 (Knowledge Graph) 以实体 - 关系三元组表示信息的结构化知识库。 🟢

→ 相关:检索结果为 1.5 应用与编排 中的 RAG 和 Agent 提供上下文;分块和索引质量直接影响检索效果。

1.5 应用与编排

概念名称 定义简述 成熟度
AI Agent 能感知环境、规划行动并调用工具以完成复杂目标的自主实体。 🟡
多智能体系统 (Multi-Agent) 多个 Agent 分工协作(如理解、检索、编码、审核),由调度器协调完成复杂任务的系统架构。 🔵
Agent 工作流 (Agent Workflow) 协调多个 Agent 或步骤以实现端到端应用的预定义任务序列。 🟡
Agent 记忆 (Memory) Agent 维持上下文连续性的机制,包括短期记忆(对话历史)、长期记忆(持久化知识)和情景记忆(过往交互经验)。 🟡
函数调用 (Function Calling / Tool Use) 模型以结构化方式调用外部函数或 API 的能力,是 Agent 与外部世界交互的核心机制。 🟢
结构化输出 (Structured Output) 约束模型输出为 JSON Schema 等预定义格式,确保下游系统可靠解析,是生产环境的刚需。 🟢
MCP (模型上下文协议) 由 Anthropic 提出的开放标准,规范 Agent 与外部工具/数据源的连接方式(Agent-to-Tool)。 🟢
A2A (Agent-to-Agent 协议) 由 Google 提出的开放协议,规范不同 Agent 之间的任务委派与协调(Agent-to-Agent)。 🔵
ACP (Agent 通信协议) 面向通用 Agent 间通信的协议,支持跨框架、跨平台的 Agent 互操作。 🔵
ANP (Agent 网络协议) 面向去中心化、互联网级别的 Agent 网络通信协议,构建"Agent 互联网"。 🔵
提示工程 (Prompt Engineering) 设计输入提示以引导模型生成更精确、可控输出的技术。 🟢
上下文工程 (Context Engineering) 系统性地设计、管理和优化送入模型的全部上下文信息(包括提示、检索结果、工具描述、记忆、对话历史),是 Agent 时代 Prompt Engineering 的进化形态。 🟡
上下文学习 (In-Context Learning) 模型通过输入中的示例(few-shot)即时学习任务和模式,无需更新参数。 🟢
零/少样本学习 (Zero/Few-shot Learning) 无示例(零样本)或极少示例(少样本)下模型泛化适应新任务。 🟢
自动提示优化 (Automatic Prompt Optimization) 利用算法自动生成和优化提示,最大化模型性能。 🟡
应用开发框架 (LLM Framework) 封装 LLM 调用链、工具集成和 Agent 编排的开源框架(如 LangChain、LlamaIndex、CrewAI、AutoGen)。 🟢
Agentic Coding (智能体编程) 由 AI Agent 驱动的软件开发范式,Agent 自主完成代码生成、调试、测试等开发任务(如 Cursor、Claude Code、GitHub Copilot Agent)。 🟢
模型路由 (Model Routing) 根据查询复杂度、任务类型自动将请求分发到最合适的模型(如简单问题→小模型,复杂推理→大模型),平衡成本与质量。 🟢

→ 相关:应用层的稳定性和安全性由 1.6 治理与运维 保障;Agent 工具调用依赖 1.3 推理与加速 的高性能推理引擎。

1.6 治理与运维

概念名称 定义简述 成熟度
LLMOps 面向 LLM 应用的运维体系,涵盖模型监控、追踪、评估、版本管理和持续迭代。 🟡
安全护栏 (Guardrails) 在模型输入/输出端设置的实时过滤机制,防止 PII 泄漏、有害内容、提示注入等安全风险。 🟡
模型评估 (Model Evaluation) 使用指标和分析系统测量模型性能、鲁棒性和公平性,包括 LLM-as-Judge 等新型评估范式。 🟢
可解释性 (Explainability / XAI) 使模型决策过程透明化,便于人类理解与信任。 🟡
幻觉 (Hallucination) 模型生成看似合理但事实错误或虚构内容的现象。 🟢
提示注入攻击 (Prompt Injection) 通过在输入中嵌入恶意指令劫持模型行为的攻击方式,分为直接注入(用户输入)和间接注入(通过检索内容),是 LLM 应用的头号安全威胁。 🟡
红队测试 (Red Teaming) 通过对抗性攻击系统性测试模型安全边界和脆弱性的实践。 🟡
模型部署 (Model Deployment) 将模型集成到生产环境,提供实时推理能力。 🟢

2. 技术领域划分与栈详解

为了更清晰地理解这些技术如何协作,我们将上述技术栈划分为六个核心领域:模型基础层训练与优化层推理优化层知识与数据层应用编排层治理与运维层

2.1 模型基础层 (Model Foundation Layer)

这是整个生态的基石,决定了智能的上限。

  • 包含技术栈:大模型 (LLM)、稠密模型、混合专家模型 (MoE)、多模态、推理模型、小语言模型 (SLM)、状态空间模型 (SSM/Mamba)。
  • 解决什么问题:提供通用的语言理解、逻辑推理及跨模态感知能力。MoE 架构解决了参数规模膨胀带来的计算成本问题,多模态打破了单一文本的限制,推理模型通过思维链搜索实现复杂问题的高质量求解,SLM 使得端侧和低成本部署成为可能,SSM/Mamba 以线性复杂度为超长序列场景提供 Transformer 之外的替代方案。
  • 依赖与关联
    • 依赖海量预训练数据、合成数据和算力基础设施。
    • 训练与优化层推理优化层的操作对象。
    • 应用编排层提供推理引擎。
  • 2025-2026 趋势
    • MoE 架构成为主流(Llama 4、Mixtral、DeepSeek-V3),稀疏激活显著降低推理成本。
    • 推理模型范式爆发(OpenAI o 系列、DeepSeek-R1、Claude 思考模式),"思考时间换答案质量"成为新范式。
    • 上下文窗口从 128K 扩展至百万级 token(Gemini 2.5 Pro 支持 1M tokens)。
    • SSM/Mamba 架构持续演进(Jamba 等混合架构),在超长序列和端侧推理场景展现优势,形成"Transformer + SSM"混合架构趋势。

2.2 训练与优化层 (Training & Optimization Layer)

该领域关注如何让通用模型变得更专业、更安全、更高效。

  • 包含技术栈:SFT(监督微调)、微调、PEFT (LoRA/QLoRA)、RLHF、DPO、RLVR、Constitutional AI (CAI)、模型蒸馏、模型压缩、持续学习、领域适应、对齐、安全对齐、合成数据、分布式训练。
  • 解决什么问题
    • 指令跟随:SFT 使用标注好的"指令-回答"数据教会模型遵循指令的基本格式和能力,是后续对齐步骤的基础。
    • 专业化:通过微调、PEFT 和领域适应,使模型懂行业术语(如医疗、法律)。PEFT 技术(LoRA/QLoRA)使得单卡即可微调大模型。
    • 价值观:通过 RLHF、DPO、RLVR、Constitutional AI、对齐和安全对齐,减少偏见和有害输出。DPO 无需奖励模型即可从偏好数据学习,比 RLHF 更简洁;RLVR 利用可验证奖励信号(代码测试、数学证明)进一步降低对人工标注的依赖;Constitutional AI 通过预定义原则让模型自我修正,减少对人工反馈的依赖。
    • 效率:通过蒸馏和压缩,使模型能在边缘设备或低成本服务器上运行。
    • 数据:合成数据技术缓解高质量真实数据枯竭问题,分布式训练使超大规模模型训练成为可能。
    • 进化:通过持续学习,让模型随时间推移掌握新知识。
  • 依赖与关联
    • 依赖模型基础层的预训练权重。
    • 依赖人类反馈数据(用于 RLHF/DPO)和可验证奖励环境(用于 RLVR)。
    • 输出优化后的模型权重,供推理优化层模型部署使用。
  • 2025-2026 趋势
    • DPO 因其简洁性已大幅替代传统 RLHF 流程,成为对齐首选方法。
    • RLVR 在代码和数学领域取得突破性进展(DeepSeek-R1 的核心训练方法),减少对昂贵人工标注的依赖。
    • 合成数据成为主流训练数据来源,各厂商竞相构建高质量合成数据管线。
    • PEFT (QLoRA) 使得在消费级 GPU 上微调 70B+ 参数模型成为现实。

2.3 推理优化层 (Inference Optimization Layer)

2025-2026 新增层 — 随着 LLM 大规模部署,推理成本和延迟成为核心瓶颈,推理优化已从"锦上添花"升级为"刚需"。

该领域关注如何在生产环境中高效、低成本地运行模型推理。

  • 包含技术栈:推理引擎(vLLM、TensorRT-LLM、SGLang)、推测解码、KV Cache 管理(PagedAttention)、批处理策略(Continuous Batching)、量化推理(INT4/INT8/FP8)、模型并行推理、语义缓存 (Semantic Cache)、推理负载均衡 (Load Balancing)。

  • 解决什么问题

    • 延迟:推测解码使用小模型"打草稿"、大模型验证,实现 2-3 倍加速;KV Cache 优化(如 PagedAttention)解决显存碎片化问题;语义缓存对语义相似的查询直接命中缓存,避免重复推理。
    • 吞吐:Continuous Batching 动态合并请求,大幅提升并发处理能力;负载均衡在多 GPU/多节点间智能分发请求。
    • 成本:量化推理(INT4/FP8)在几乎不损失精度的情况下降低显存需求和计算成本。
    • 测试时计算:推理模型在推理阶段通过多次采样、搜索等策略投入更多计算以提升质量。
  • 依赖与关联

    • 依赖训练与优化层输出的模型权重。
    • 应用编排层模型部署提供高性能推理服务。
    • 治理与运维层的监控指标对接(延迟、吞吐量、GPU 利用率)。
  • 代表性引擎对比

    推理引擎 核心优势 适用场景
    vLLM PagedAttention、开源生态丰富、支持多种推测解码 通用生产部署,社区首选
    TensorRT-LLM NVIDIA 深度优化、自定义 CUDA 内核 NVIDIA GPU 极致性能优化
    SGLang RadixAttention、结构化生成优化 复杂提示模板、结构化输出
  • 2025-2026 趋势

    • vLLM 凭借活跃的开源社区和丰富的推测解码支持(EAGLE/P-EAGLE),成为生产部署首选。
    • SGLang 凭借 RadixAttention 在结构化生成和复杂提示模板场景快速崛起,形成三足鼎立格局。
    • FP8 量化推理在 H100/B200 等新硬件上原生支持,几乎无精度损失且显著降低成本。
    • 推测解码从实验技术升级为生产标配,EAGLE 系列实现 2-3x 加速。
    • 推理时计算(Test-time Compute)成为新的性能提升维度,与推理引擎深度集成。
    • 语义缓存(如 GPTCache)在生产环境中广泛部署,对高频重复查询可降低 50-80% 的推理成本。

2.4 知识与数据层 (Knowledge & Data Layer)

大模型存在知识截止和幻觉问题,该层为模型提供"外挂大脑"和长期记忆。

  • 包含技术栈:嵌入 (Embedding)、向量数据库、RAG 数据管道、混合检索 (Hybrid Search)、GraphRAG、知识图谱。
  • 解决什么问题
    • 数据管道:RAG 数据管道负责文档解析(PDF/HTML/代码等格式转换)、智能分块(按语义、段落或固定长度切分)、元数据提取和索引构建。分块策略直接决定检索粒度与召回质量,是 RAG 落地中最容易被忽视却影响最大的环节。
    • 语义检索:Embedding 将非结构化数据转化为向量,向量数据库实现高效相似性搜索。
    • 混合检索:结合稠密向量检索(语义匹配)与稀疏检索(BM25 关键词匹配),兼顾语义理解和精确匹配,显著提升召回质量。
    • 图增强检索:GraphRAG 利用知识图谱的实体关系结构,在检索时保留文档间的关联信息,特别适合需要跨文档推理的复杂查询(如微软 GraphRAG)。
    • 事实准确性:知识图谱提供结构化事实,辅助模型推理,减少幻觉。
    • 私有数据接入:允许企业在不重新训练模型的情况下使用内部数据。
  • 依赖与关联
    • 依赖原始业务数据。
    • RAG技术的核心组件。
    • 应用编排层提供实时上下文信息。
  • 2025-2026 趋势
    • 混合检索(稠密+稀疏)成为 RAG 生产系统的标配,单一向量检索已无法满足企业级需求。
    • GraphRAG 从学术走向工程落地,微软开源实现推动行业采纳。
    • 分块策略从固定长度向语义感知分块演进,Late Chunking 等技术结合 Embedding 模型实现更优切分。
    • Agentic RAG 兴起 — Agent 自主决定何时检索、检索什么、如何迭代细化检索结果。

2.5 应用编排层 (Application Orchestration Layer)

这是用户直接交互的层面,负责将模型能力转化为实际业务价值。

  • 包含技术栈:RAG、AI Agent、多智能体系统、Agent 工作流、Agent 记忆、Agentic Coding、函数调用 (Function Calling)、结构化输出 (Structured Output)、上下文工程 (Context Engineering)、提示工程、上下文学习、零/少样本学习、自动提示优化、应用开发框架(LangChain/LlamaIndex/CrewAI/AutoGen)、模型路由 (Model Routing)、MCP、A2A、ACP、ANP。
  • 解决什么问题
    • 任务自动化:Agent 和工作流能自主规划并调用工具(如搜索、API)完成复杂任务。函数调用是 Agent 与外部工具交互的核心机制,结构化输出确保下游系统可靠解析模型结果。
    • 多 Agent 协作:多智能体系统让多个专业化 Agent 分工协作(如规划 Agent、编码 Agent、审核 Agent),通过 A2A/ACP 协议进行通信和任务委派。
    • 效果增强:RAG 结合检索与生成;提示工程和自动优化确保模型输出质量。
    • 工具连接:MCP 标准化 Agent 与工具的连接方式,解决"M×N 集成问题"。
    • Agent 互联:A2A 协议实现跨组织的 Agent 任务委派;ANP 构建去中心化的 Agent 网络。
    • 上下文与记忆:Agent 记忆系统提供短期(对话历史)、长期(持久化知识)和情景记忆(过往经验),使 Agent 在多轮交互中保持连贯性和个性化。
    • 开发效率:应用开发框架(LangChain、LlamaIndex、CrewAI 等)封装了 LLM 调用链、工具集成和 Agent 编排的通用模式,大幅降低开发门槛。
    • 上下文工程:在 Agent 时代,Prompt Engineering 进化为 Context Engineering — 不再只是写一条提示,而是系统性地设计送入模型的全部信息(检索结果、工具描述、记忆、对话历史、系统指令的组装策略)。
    • 智能体编程:Agentic Coding 是 2025-2026 最热门的 LLM 应用方向,AI Agent 自主完成代码编写、调试、测试、重构等开发任务,显著改变软件开发工作流。
    • 智能路由:模型路由根据查询复杂度和任务类型,自动将请求分发到最合适的模型(简单问题→小模型/低成本,复杂推理→大模型/高质量),在成本和质量之间取得最优平衡。
  • 依赖与关联
    • 依赖模型基础层推理优化层提供推理能力。
    • 依赖知识与数据层提供检索内容。
    • 直接面向最终用户或业务系统。
  • 2025-2026 趋势
    • Agentic Coding 爆发式增长(Cursor、Claude Code、Windsurf、GitHub Copilot Agent),AI 辅助编程从"代码补全"进化到"自主完成开发任务"。
    • 上下文工程 (Context Engineering) 成为构建高质量 Agent 应用的核心技能,取代传统 Prompt Engineering 的单一视角。
    • 模型路由在生产系统中广泛部署,通过智能分发降低 30-60% 的推理成本。
    • Agent 记忆从简单的对话缓存进化为结构化长期记忆,支持个性化和持续学习。
Agent 协议族关系
协议 通信方向 核心定位 发起方
MCP Agent ↔ Tool 工具连接标准(“AI 的 USB-C”) Anthropic
A2A Agent ↔ Agent 企业级多 Agent 任务委派 Google
ACP Agent ↔ Agent 通用跨框架 Agent 通信 IBM/社区
ANP Agent ↔ Agent (互联网) 去中心化 Agent 网络 开源社区

这四个协议是互补关系而非竞争关系:MCP 解决 Agent 与工具的连接,A2A/ACP 解决 Agent 间协作,ANP 解决互联网级 Agent 发现与通信。

2.6 治理与运维层 (Governance & LLMOps Layer)

确保模型在生产环境中稳定、可信、可控地运行。

  • 包含技术栈:LLMOps、安全护栏 (Guardrails)、提示注入防御 (Prompt Injection Defense)、模型评估、幻觉检测、红队测试、可解释性、模型部署。
  • 解决什么问题
    • 运维可观测性:LLMOps 提供全链路追踪(trace)、日志、指标监控,帮助定位 Agent 执行瓶颈和异常(代表工具:LangWatch、Arize AI、Braintrust、LangSmith)。
    • 安全防线:安全护栏在输入/输出端实时过滤,防止 PII 泄漏、有害内容输出(代表框架:NeMo Guardrails、Guardrails AI);提示注入防御专门针对直接注入(用户输入恶意指令)和间接注入(通过 RAG 检索内容注入)两类攻击进行检测和拦截。
    • 质量评估:模型评估量化性能,LLM-as-Judge 利用强模型评估弱模型输出,红队测试主动发现安全漏洞。
    • 信任建立:可解释性让黑盒决策透明化。
    • 服务化:模型部署将算法转化为 API 服务。
  • 依赖与关联
    • 贯穿整个生命周期,对优化层的效果进行验证。
    • 保障应用编排层的稳定性。
    • 反馈数据可用于后续的持续学习RLHF/RLVR
  • 2025-2026 趋势
    • LLMOps 从可选组件升级为生产标配,LangSmith、Arize AI、LangWatch 等工具被广泛采用。
    • 安全护栏成为企业级 LLM 部署的合规要求(尤其金融、医疗、法律领域),NeMo Guardrails 和 Guardrails AI 成为主流框架。
    • LLM-as-Judge 评估范式兴起,用强模型自动评估弱模型输出,大幅降低人工评估成本。
    • 红队测试从一次性活动变为持续性流程,自动化红队工具(如 Garak、PyRIT)成为安全基线。
    • 提示注入防御成为 Agent 应用的安全刚需,随着 Agent 自主调用工具和 RAG 检索,间接注入攻击面显著扩大。

3. 关键技术栈全景图

下图展示了六个领域之间的逻辑关系与数据流向。从底层的模型架构,到训练优化与推理加速,再到知识增强与应用编排,最后由治理层进行全链路监控。

模型基础层

训练与优化层

推理优化层

知识与数据层

应用编排层

治理与运维层

LLMOps 可观测性

安全护栏 Guardrails

模型评估 & LLM-as-Judge

幻觉检测 & 红队测试

可解释性

模型部署

提示注入防御

RAG 检索增强

AI Agent & 多智能体系统

提示工程 & 自动优化

Agent 协议族: MCP / A2A / ACP / ANP

函数调用 & 结构化输出

Agent 记忆 & 应用框架

上下文工程 & 模型路由

嵌入 Embedding

向量数据库

知识图谱 & GraphRAG

混合检索 Hybrid Search

RAG 数据管道

推理引擎: vLLM / TensorRT-LLM / SGLang

推测解码 & KV Cache 优化

量化推理 INT4/FP8

测试时计算 Test-time Compute

语义缓存 & 负载均衡

SFT & 微调 & PEFT LoRA/QLoRA

RLHF & DPO & RLVR & CAI

蒸馏 & 压缩

持续学习 & 领域适应

合成数据 & 分布式训练

大模型 LLM

稠密 / MoE 架构

多模态能力

推理模型 Reasoning Model

小语言模型 SLM

SSM/Mamba 状态空间模型

全景图解读

  1. 纵向支撑模型基础层位于底部(含 Transformer 和 SSM/Mamba 两大架构路线),支撑上层的训练、推理与应用;治理与运维层贯穿右侧,确保从模型训练到应用服务的全流程可控可观测。
  2. 推理加速推理优化层是 2025-2026 年的核心增长点,它接收优化后的模型权重,通过推理引擎、语义缓存和加速技术为上层提供高性能服务,直接决定了生产成本和用户体验。
  3. 横向增强知识与数据层位于左侧,从 RAG 数据管道到向量检索、GraphRAG、混合检索,为应用层提供实时、准确的外部信息,弥补模型内部知识的不足。
  4. 核心闭环训练与优化层接收来自治理层的评估反馈(如 RLHF 中的人类偏好、RLVR 中的可验证奖励、DPO 中的偏好数据),不断迭代模型权重,形成"训练 - 评估 - 优化"的闭环。
  5. 协议互联应用编排层中 Agent 协议族(MCP/A2A/ACP/ANP)的标准化,使得 Agent 能够跨工具、跨组织、甚至跨互联网进行协作,是 2025-2026 年"Agentic AI"浪潮的基础设施。
  6. 交互核心应用编排层是用户感知的核心,它通过函数调用连接工具、通过 Agent 记忆维持上下文、通过上下文工程组装最优输入、通过模型路由平衡成本与质量、通过结构化输出保证可靠性,将技术能力转化为业务结果。

📖 不同团队如何选型? 请参阅 第 5 节:技术选型决策指引,按项目阶段、团队规模和应用场景给出具体建议。

4. 技术栈之间的关键依赖关系

上层技术 依赖的下层技术 依赖说明
RAG 嵌入 + 向量数据库 + LLM + 混合检索 检索依赖向量索引和 BM25,生成依赖语言模型
GraphRAG 知识图谱 + 向量数据库 + LLM 图结构增强检索,需要知识图谱的实体关系和向量索引
AI Agent LLM + Function Calling + MCP + 推理引擎 推理依赖模型,工具调用依赖函数调用和 MCP 协议,性能依赖推理引擎
Agent 记忆 向量数据库 + LLM + 持久化存储 长期记忆依赖向量检索,情景记忆依赖结构化存储
多智能体系统 Agent + A2A/ACP + Agent 记忆 Agent 间任务委派和状态同步依赖 Agent 间协议和共享记忆
结构化输出 LLM + JSON Schema 约束 需要模型支持输出格式约束(如 OpenAI 的 response_format)
微调/PEFT 预训练权重 + 分布式训练 需要基础模型权重和训练基础设施
DPO 偏好数据集 + 预训练权重 需要成对的偏好数据(chosen vs rejected),无需训练奖励模型
RLVR 可验证奖励环境 + RLHF 框架 需要自动化的奖励验证机制(如代码沙箱、数学验证器)
推测解码 大模型 + 小模型 (草稿模型) 需要配对的大小模型组合,或 n-gram 匹配策略
安全护栏 LLM + 分类器/规则引擎 输入输出过滤依赖轻量级模型或规则系统
LLMOps 全链路日志 + 评估框架 需要采集推理、Agent 执行、检索等全链路数据
模型路由 多模型集群 + 分类器/规则 需要多个可用模型和查询复杂度评估机制
RAG 数据管道 文档解析器 + Embedding + 向量数据库 需要将原始文档转为向量索引的完整 ETL 流程
Agentic Coding LLM + Function Calling + 代码沙箱 + 工具链 需要安全的代码执行环境、文件系统和开发工具集成
语义缓存 Embedding + 向量存储 + 推理引擎 需要嵌入模型计算查询语义相似度,缓存命中后跳过推理引擎
SFT 预训练权重 + 指令-回答标注数据 需要高质量的指令跟随数据集,是 RLHF/DPO 等对齐步骤的前置条件
Constitutional AI SFT 模型 + 预定义原则集 需要预定义的行为准则(“宪法”),模型根据原则自我修正输出
提示注入防御 分类器 + 规则引擎 + LLM 输入端需要轻量级分类器检测恶意指令,RAG 场景需过滤检索内容中的注入
上下文工程 RAG + Agent 记忆 + 工具描述 + 对话历史 系统性组装送入模型的全部信息,依赖检索、记忆、工具等多个子系统

5. 技术选型决策指引

并非所有团队都需要全部技术栈。以下按项目阶段团队规模给出优先级建议。

5.1 按项目阶段选择

项目阶段 必备技术栈 (P0) 推荐技术栈 (P1) 可选技术栈 (P2)
原型验证期 LLM API 调用、提示工程、RAG 基础(Embedding + 向量数据库) 应用开发框架(LangChain/LlamaIndex)、结构化输出
MVP 构建期 上述 + Function Calling、RAG 数据管道、混合检索 Agent 工作流、MCP、安全护栏基础、LLMOps(基础追踪) 模型路由
规模化生产 上述全部 + 推理引擎(vLLM 等)、LLMOps 全链路、安全护栏 Agent 记忆、上下文工程、PEFT 微调、DPO 对齐 多智能体系统、GraphRAG
平台化演进 上述全部 + 模型路由、量化推理 多智能体系统、A2A 协议、Agentic Coding 集成 ANP、推测解码、RLVR

5.2 按团队规模选择

团队规模 推荐策略 关键技术选择
个人/小团队 (1-3 人) 最大化利用托管服务,避免自建基础设施 LLM API (OpenAI/Anthropic/Google)、托管向量数据库(Pinecone)、LangChain/LlamaIndex、基础 RAG
中型团队 (4-15 人) 在托管与自建间平衡,开始构建差异化能力 自建推理服务(vLLM)、PEFT 微调、混合检索、MCP、LLMOps(LangSmith/Arize)
大型团队 (15+ 人) 深度自研,构建完整平台能力 分布式训练、RLHF/DPO/RLVR、多智能体系统、A2A/ACP、全链路 LLMOps、安全护栏体系

5.3 按应用场景选择

应用场景 核心技术栈 关键技术决策点
企业知识库问答 RAG + 向量数据库 + 混合检索 + RAG 数据管道 分块策略(语义 vs 固定长度)、Embedding 模型选择、重排序 (Reranking)
客服/对话系统 LLM + 提示工程 + Agent 记忆 + 安全护栏 记忆持久化策略、多轮对话状态管理、安全护栏配置
代码辅助工具 LLM + Function Calling + Agentic Coding + 代码沙箱 推理模型选择(o 系列/DeepSeek-R1)、上下文工程、结构化输出
数据分析 Agent Agent + MCP + Function Calling + 模型路由 工具描述设计、模型路由策略、输出验证
多 Agent 协作系统 多智能体 + A2A/ACP + Agent 记忆 + LLMOps Agent 角色设计、状态共享机制、可观测性体系
领域专用模型 PEFT (LoRA/QLoRA) + DPO + 合成数据 + 推理引擎 数据配比、基座模型选择、量化策略 (FP8/INT4)

6. 生产部署检查清单

在将 LLM 应用推向生产环境之前,以下清单帮助团队确认关键环节是否就绪。

6.1 性能与成本

检查项 关键问题 参考技术
☐ 推理引擎部署 是否选择了合适的推理引擎?是否启用 Continuous Batching? vLLM / TensorRT-LLM / SGLang
☐ 量化策略 是否评估了 INT4/FP8 量化对精度的影响? 量化推理
☐ 缓存机制 高频重复查询是否启用语义缓存? GPTCache / Semantic Cache
☐ 模型路由 是否对不同复杂度的查询配置了路由策略? 模型路由
☐ 负载均衡 多 GPU/多节点部署是否配置了负载均衡? 推理负载均衡

6.2 可靠性与可观测性

检查项 关键问题 参考技术
☐ 全链路追踪 Agent 执行、检索、推理是否有 trace 追踪? LangSmith / Arize / LangWatch
☐ 指标监控 延迟、吞吐量、GPU 利用率、错误率是否有告警? LLMOps
☐ 容错降级 推理服务不可用时是否有降级方案? 模型路由 + 备用模型
☐ 版本管理 模型版本、提示版本、配置版本是否可回滚? LLMOps

6.3 安全与合规

检查项 关键问题 参考技术
☐ 输入过滤 是否部署了提示注入检测和 PII 过滤? 安全护栏 + 提示注入防御
☐ 输出过滤 是否对有害内容、敏感信息进行了输出端过滤? NeMo Guardrails / Guardrails AI
☐ 权限隔离 Agent 的工具调用权限是否遵循最小权限原则? Function Calling 权限控制
☐ 红队测试 上线前是否完成了自动化红队测试? Garak / PyRIT

6.4 质量保障

检查项 关键问题 参考技术
☐ 评估基线 是否建立了核心指标的评估基线和回归测试? 模型评估 + LLM-as-Judge
☐ 幻觉检测 RAG 场景是否配置了答案与检索结果的一致性检查? 幻觉检测
☐ 分块质量 RAG 数据管道的分块策略是否经过 A/B 测试验证? RAG 数据管道
☐ 结构化输出 下游系统消费模型输出时是否验证了格式合规性? 结构化输出

结语

大模型应用生态并非单一技术的堆砌,而是一个六层协同的系统工程。本文梳理了 61 个核心概念,覆盖从模型架构到生产运维的全链路。理解这些技术栈的定义、领域划分及相互依赖关系,是构建下一代智能应用的基础。

三个关键范式转移正在发生:

  1. 从"模型为中心"到"系统为中心" — 单一模型能力不再是唯一瓶颈。推理引擎(vLLM/SGLang)、语义缓存、模型路由等系统级优化对成本和延迟的影响,往往超过模型本身的代际提升。上下文工程取代提示工程,也标志着关注点从"写好一条提示"转向"设计整个信息流"。

  2. 从"对话"到"行动" — AI Agent 从概念走向生产。MCP 解决了工具连接,A2A/ACP 解决了 Agent 间协作,Function Calling 和结构化输出确保了可靠性。Agentic Coding(Cursor、Claude Code)是这一范式最成功的落地场景。推理模型(o 系列、DeepSeek-R1)通过在推理阶段投入更多计算,为 Agent 的规划和决策提供了更强的"思考力"。

  3. 从"人工密集"到"自动化闭环" — DPO 取代 RLHF 省去了奖励模型训练;RLVR 用可验证奖励替代人工标注;合成数据缓解了真实数据枯竭;LLM-as-Judge 用强模型自动评估弱模型;自动化红队工具(Garak、PyRIT)持续发现安全漏洞。整条链路的人工依赖正在系统性降低。

各层的详细技术趋势和选型建议,请参阅各节的 “2025-2026 趋势”第 5 节:技术选型决策指引

参考来源

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐