终于有人讲清楚了！21张图解LLM与Agent理论基础（非常详细），从入门到精通，收藏这一篇就够了！

程序猿李巡天

353人浏览 · 2026-03-21 20:50:44

程序猿李巡天 · 2026-03-21 20:50:44 发布

图解AI大模型通识

21张图强化LLM与Agent 理论基础

前言

**大模型技术日新月异，新概念层出不穷。**初学者就像走进了一个巨大的"技术超市"：今天被 Transformer 的"注意力机制"吸引，明天又被 Prompt 的"魔法咒语"迷住，后天 LangChain 又来"拉链式"地串联一切。结果就是——购物车里装满了各种"商品"，但回到家后一下子不知道怎么搭配使用。大模型学习过程容易出现知识碎片化、缺乏系统性，难以形成深度理解和持久记忆。

更要命的是，大模型发展的速度大于整理文章的速度！本文旨在通过可视化图解的形式整理相关概念，辅助构建从 AI 基础到 Agent 应用的知识体系，帮助读者系统掌握大模型技术的核心逻辑和演进脉络。

一、人工智能技术基础：从符号主义到深度学习

1.1 人工智能技术架构

在学习 AI 的过程中，如果能对整个技术版图有一个大致轮廓，知道每个知识点大概处于哪个层级和位置，对学习效果非常有帮助。

人工智能是一个庞大的知识领域，远不是几张图或少数术语所能完全概括。大多数人脑中其实已经「预训练」了不少 AI 知识，本文希望通过一个框架性的整理，对你的「大脑模型」进行一次小小的「微调」。

图 1：人工智能领域架构图

1.2 人工智能的分层领域

**核心关系：**人工智能（AI） → 机器学习（ML） → 深度学习（DL）。

发展历程：

符号主义时代（1950s-1980s）

：基于规则的专家系统，依赖人类显式编写规则。
机器学习时代（1990s-2000s）

：从数据中自动学习规律，开始弱化「手工规则」。
深度学习时代（2010s-2020s）

：大规模神经网络在语音、视觉、NLP 等领域全面开花。
大模型时代（2020s 至今）

：超大规模预训练模型、生成式模型爆发，迈向通用智能。

图 2：深度学习与大模型的关系

1.3 深度学习的核心：神经网络家族

**神经网络（Neural Network）**的基础是简单的感知机模型，由输入层、隐藏层、输出层组成，主要用于通用的模式识别任务。

在深度学习的发展中，出现了多种典型架构：

模型	特点	优势	应用 / 局限
CNN（卷积神经网络）	局部连接、参数共享	对局部空间特征敏感，参数量可控	广泛用于图像分类、目标检测等视觉任务
RNN / LSTM（循环神经网络）	序列建模、具备记忆机制	能够处理时间序列、文本序列	难以并行计算，长距离依赖问题明显
Transformer	Self-Attention 机制、完全并行化	解决 RNN 并行性与长距离依赖问题，为大模型奠基	已成为 NLP、多模态等领域的大一统架构

Transformer 与 CNN、RNN 处于同一层级，都是神经网络的基础架构模式。Transformer 的革命性在于：

摆脱序列依赖，支持完全并行化训练；
更好地建模长距离依赖；
为大模型的扩展提供了可行的工程路径。

1.4 机器学习的范式：监督 / 无监督等学习方式

深度学习是机器学习的子领域，而「监督学习 / 无监督学习 / 强化学习」等，是从学习范式的角度对机器学习进行的分类。

学习方式	数据标注	主要特点	典型应用
监督学习	完全标注	学习输入到输出的映射关系	分类、回归（如垃圾邮件识别、房价预测）
无监督学习	无标注	从数据中发现模式和结构	聚类、降维（如用户分群、特征压缩）
强化学习	奖励 / 惩罚反馈	在环境中通过试错学习最优策略	游戏 AI、机器人控制等
半监督学习	部分标注	结合少量标注与大量未标注数据	文本分类、图像识别等标注成本高的任务
自监督学习	自构造标签	从数据本身构造预测任务来学习表示	预训练模型、BERT 等基础模型训练

核心区别：

监督 / 无监督的关键在于是否使用带标签的数据；
强化学习则通过试错 + 奖励信号来学习决策策略。

1.5 为什么需要大模型？

从传统模型到大模型，本质是从「专家系统」走向「通用智能」的过程：

传统模型

：类似「专门训练的专家」，针对单一任务精调，泛化能力有限。
大模型

：类似「知识渊博的通才」，在统一模型中承载多任务、多领域能力。

图 3：传统模型 vs 大模型对比图

二、大模型技术：从 Transformer 到模型应用

2.1 大模型领域知识框架

大模型领域概念众多，包括架构、训练范式、推理方式、应用形态等。可以从以下几个层次进行理解：

底层基础：

算力、数据、模型架构（如 Transformer）。
训练与对齐：

预训练、微调、指令微调、对齐（RLHF 等）。
能力扩展：

工具调用、RAG、长上下文、代码能力、多模态。
应用形态：

聊天助手、代码助手、搜索增强、Agent、Multi-Agent 等。

图 4：大模型领域架构图

2.2 大模型发展历程

大模型的发展可以简单概括为从「预训练语言模型」逐步演进到「通用多模态 Agent 平台」：

早期：基于统计与 n-gram 的语言模型。
中期：基于 RNN / LSTM 的语言建模。
转折点：Transformer 架构提出后，开始大规模预训练。
大模型阶段：GPT 系列、BERT 系列、各国与各厂商自研模型蓬勃发展。

图 5：大模型发展时间轴图

图 6：2025 年主流大模型

2.3 Transformer 架构：并行化的革命

前面提到 RNN / LSTM 的主要问题：

难以并行：序列依赖严格，无法充分利用现代硬件并行能力。
长距离依赖弱：对很久之前的信息容易「遗忘」。

Transformer 的核心解决方案：Self-Attention 机制。

图 7：Transformer 核心架构图

1）Self-Attention（自注意力）

概述：

让序列中的每个元素都能与其他所有元素「对话」，通过计算相似度分配注意力权重，从而捕捉序列内部的依赖与语义关系。
比喻：

就像你在读一段话时，会自动把每个词与整段话中其他词联系起来，理解它在上下文中的真正含义。

2）多头注意力（Multi-Head Attention）

概述：

将输入向量拆分成多个「头」，每个头独立学习一套注意力权重，从不同「视角」关注信息。
比喻：

好比让多个专家从不同角度分析同一段文字，再综合他们的结论。

3）位置编码（Positional Encoding）

问题：

Self-Attention 本身对「顺序」不敏感。
解决：

通过显式加入位置编码，让模型知道每个 token 所在的位置。

4）编码器-解码器架构（Encoder-Decoder）

概述：

编码器负责理解和压缩输入信息，解码器在此基础上逐步生成输出序列。
比喻：

编码器像「理解者」，解码器像「表达者」，常用于机器翻译、文本摘要等任务。

Transformer 的革命性意义：

彻底解决 RNN 在并行化上的瓶颈；
为大规模预训练提供高效架构；
成为现代大模型的事实标准。

2.4 大模型的训练三阶段：预训练、微调、对齐

分类	预训练（Pre-training）	微调（Fine-tuning）	对齐（Alignment）
目标	学习语言的基础表示和知识	适应特定任务或领域	让模型行为符合人类价值观与期望
数据	大规模无标注文本数据	有标注的任务相关数据	人类反馈数据、偏好数据等
方法	自监督学习（掩码语言模型、下一词预测等）	监督学习或指令微调（Instruction Tuning）	RLHF、人类偏好建模、Constitutional AI、DPO 等
结果	获得基础语言理解与生成能力	在特定任务上性能大幅提升	模型更安全、有用、诚实
比喻	给模型「灌输知识」	在专业方向上「精进」	培养「情商」与「沟通能力」

2.5 大模型的分类与应用

大模型可以从多个维度进行分类，例如：

按模态：文本模型、图像模型、语音模型、多模态模型等。
按用途：通用对话模型、编程模型、搜索增强模型、Agent 型模型等。
按部署形态：云端大模型、本地轻量模型、端侧模型等。

图 8：大模型分类与应用

2.6 Prompt Engineering：与 AI 对话的艺术

Prompt 是人与 LLM 之间的桥梁，清晰的 Prompt 是指令模型的灵魂。

好的 Prompt：目标清晰、约束明确、步骤拆解合理、提供适当上下文。
差的 Prompt：指令模糊、缺乏边界条件、缺少示例、缺少角色设定。

图 9：Prompt 介绍图

2.7 RAG：检索增强生成

RAG（Retrieval-Augmented Generation）是一种将外部知识检索与大模型生成结合的技术路线：

在调用大模型前，从向量数据库或搜索引擎中检索相关文档；
将检索到的内容与用户问题一起输入模型；
模型在「读完资料」的基础上进行回答，提升准确性与时效性。

图 10：RAG 介绍图

三、智能体（Agent）技术：让 AI 具备行动能力

3.1 智能体（Agent）的定义

许多人对 AI Agent 的概念比较模糊，一个重要原因是：Agent 在不同语境下有多种定义。可以从三个视角理解：

（1）学术视角

AI Agent = 具备以下能力的智能实体：

感知能力（Perception）
决策能力（Decision Making）
行动能力（Action）
目标驱动（Goal Oriented）

它不是一个简单的模型，而是一个能够在环境中自主运行的智能体。

（2）现代大模型时代的视角

在大模型时代，AI Agent 通常包含：

大模型（LLM / 多模态模型）

：核心的推理、理解与生成能力。
记忆（Memory）

：存储长期知识、上下文与交互历史。
工具使用（Tool Use / Function Calling）

：调用 API、数据库、搜索引擎、代码执行器等外部能力。
规划（Planning）

：将复杂任务拆解为可执行步骤，进行反思与迭代。
行动（Action）

：根据计划调用工具、操作系统或应用，直至完成目标。

（3）产品 / 工程视角

从产品和工程实践看，AI Agent 是一个可以持续运行、可重复执行任务、能自主完成工作的软件智能体，例如：

自动写代码、运行代码、修复错误的 AI Dev Agent；
自动处理客户咨询、工单流转的 AI 客服 Agent；
自动分析业务数据并生成结论的 AI 分析 Agent 等。

总结定义：

广义：

AI Agent 是一种能够在环境中自主感知、思考、规划并执行行动，以达成特定目标的智能系统。
与大模型关系：

Agent 不一定必须包含大模型，但当前主流 Agent 基本都以 LLM 或多模态模型为核心，外接工具调用、记忆与规划机制，形成类似人类执行任务的闭环能力。

**更易落地的当下定义：**AI Agent 是基于大模型的自主智能系统，具备感知环境、保持记忆、进行规划、调用工具并执行行动以实现明确目标的能力。

3.2 智能体和大模型：从「大脑」到「完整的身体」

大语言模型（LLM）

：相当于一个「强大的大脑」，具备丰富知识和推理能力，但本身没有「手脚」，无法直接感知世界或执行操作。
智能体（Agent）

：在拥有「大脑」（LLM）的基础上，再加上「手脚」（Tool）和「记忆」（Memory），可以主动感知、规划、行动和反思。

3.3 智能体的四大核心组件

最常见的一张图，会把智能体拆解成四大核心组件：

图 11：智能体核心组件原图

图 12：智能体核心组件翻译图

模块	功能	能力	比喻
大脑模块（Brain / LLM）	推理、规划、决策	逻辑推理、因果分析、任务分解	Agent 的「大脑」
工具模块（Tool Module）	执行具体操作	Function Calling、API 调用、代码执行等	Agent 的「手脚」
记忆模块（Memory Module）	存储短期与长期信息	短期记忆（对话历史、上下文窗口）与长期记忆（向量数据库、知识图谱）	Agent 的「记忆」
规划模块（Planning Module）	任务分解、执行路径规划	制定、调整与优化任务执行计划	Agent 的「计划能力」

3.4 智能体的工作流程：感知 - 决策 - 行动 - 反思

本文侧重的是基于大模型的智能体（LLM Agent），其典型流程包括：

图 13：智能体执行流程图

图 14：智能体循环（Agent Loop）

智能体循环的核心步骤：

感知（Perception）

：通过传感器（如 API 监听、用户输入接口）接收来自环境的输入信息，这些信息即为观察（Observation）。
思考（Thought）

：由大语言模型驱动的内部推理过程，可细分为：

规划（Planning）

：结合当前观察与记忆，更新对任务与环境的理解，制定或调整行动计划，将复杂目标拆解为子任务。
工具选择（Tool Selection）

：从可用工具库中选择最合适的工具，并确定调用参数。

行动（Action）

：通过执行器（Actuators）执行具体行动，通常表现为调用某个工具（如代码解释器、搜索 API 等），对环境施加影响。
观察与反思

：根据行动结果更新记忆与计划，进入下一轮循环。

从应用角度看，Agent Loop 通常对应「不断根据用户需求和环境反馈，迭代执行任务直至达成目标」。

图 15：应用角度看智能体循环

3.5 MCP 协议

**MCP（Model Context Protocol）**是一种开放标准协议，用于连接 AI 应用与外部数据源和工具：

提供统一接口，让 AI 模型安全访问文件系统、数据库、API 等资源；
支持本地和远程服务器；
提供工具调用与资源访问能力；
简化 AI 应用与外部系统的集成开发。

MCP 由 Anthropic 等公司推动，旨在标准化 AI 应用的上下文管理和外部交互。

图 16：MCP 协议示意图

3.6 智能体设计的参考流程

设计一个 AI Agent 时，通常会经历以下步骤：

明确目标与场景；
设计 Agent 的能力边界、工具集合与记忆策略；
规划交互流程与 Agent Loop；
迭代调优与监控评估。

图 17：智能体设计参考流程

四、多智能体（Multi-Agent）技术：AI 协作的新范式

4.1 多智能体简介

为什么需要多智能体？

（1）单智能体的局限性：

能力单一：很难同时具备多种专业技能；
任务复杂：某些任务需要多步骤、多领域协同；
效率低下：串行执行，难以充分利用并行资源；
扩展困难：难以应对大规模分布式场景。

（2）多智能体的优势：

专业化分工：每个智能体专注自己的领域；
并行处理：多个智能体同时工作，加速整体任务；
复杂任务分解：将大任务拆解为多个子任务分别处理；
系统可扩展性：可以按需动态增加或替换智能体。

多智能体（Multi-Agent）模式，是智能体系统从「单打独斗」走向「团队协作」的核心演进方向：通过多个专业化智能体 + 通信机制 + 协调策略，实现从「全能型助手」到「专家团队」的转变。

4.2 多智能体的协作模式

常见的多智能体协作模式包括：

主从模式

：一个主 Agent 调度多个子 Agent；
平行协作

：多个 Agent 平级协作，通过协调机制统一结果；
黑板模式

：所有 Agent 通过共享黑板交换信息；
组织 / 角色模式

：以「部门 - 角色」的方式分配任务。

图 18：多智能体常见协作模式

4.3 A2A 协议

A2A（Application to Application）协议是一种企业级集成协议，用于实现不同应用系统之间的直接通信和数据交换。

在 AI 与多智能体场景下，A2A 协议可用于：

定义不同 AI 智能体之间的消息格式与交互规则；
支持任务分配机制和协作流程；
实现智能体之间的知识共享、能力互补与分布式问题求解。

图 19：A2A 协议在多智能体领域的应用

4.4 多智能体的核心机制

多智能体系统的核心机制包括：

任务分解

：将复杂问题拆分为多个子任务，并根据各智能体的专业能力合理分配。
智能体协调

：通过任务调度、优先级管理和负载均衡等策略，避免资源冲突和重复劳动。
通信协议

：建立标准化的信息交换机制，支持同步与异步通信，保证数据与状态传递的准确性和及时性。
决策融合

：对多个智能体的决策结果进行整合，通过投票、加权平均或专家系统等方式形成最终决策。

图 20：多智能体核心机制图

4.5 主流多智能体框架

多智能体框架是构建复杂 AI 系统的重要基础，常见框架包括（示例）：

面向科研的多智能体仿真平台；
与大模型结合的多 Agent 协作框架；
支持工具编排与工作流的 Agent 平台等。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenAI 推出的 GPT-5.5 大模型@ACP#IX8008应用迭代

AtomGit开源社区

Java 内存模型（JMM）深度解析

在一个线程内，书写在前面的操作先行发生于书写在后面的操作。虽然 CPU 会为了性能进行指令重排，但 JMM 承诺"单线程执行结果的正确性"（即 as-if-serial 语义）。

AtomGit开源社区

让 Agent 进入 CI/CD

AI赋能交付链路的治理闭环当前AI正从代码生成向交付链路渗透，核心挑战在于构建可审计的自动化闭环，而非单纯修复CI问题。主流平台进展： Harness：AI深度集成DevOps平台，支持流水线编辑、策略生成及GitOps操作，但全自动发布仍处预览阶段 GitLab：通过Duo Agent实现CI/CD修复流，需经MR流程确保修改合规 GitHub：Copilot Agent依托Actions治理