AI核心概念详解_从Transformer到Agent

小憨憨小昭

96人浏览 · 2026-05-12 15:22:39

小憨憨小昭 · 2026-05-12 15:22:39 发布

一文读懂大语言模型核心概念：从Transformer到Agent

阅读时间：约 8 分钟
适合人群：AI初学者、产品经理、技术爱好者

引言

2022年底，ChatGPT的横空出世让全世界第一次真切感受到了人工智能的力量。但在这股浪潮背后，究竟有哪些核心技术在支撑？本文将用通俗易懂的方式，带你系统梳理大语言模型（LLM）的核心概念，从底层架构到上层应用，构建完整的认知框架。

一、LLM是什么？——Transformer架构的产物

大语言模型（Large Language Model，LLM） 是基于 Transformer 架构 训练出来的语言模型。

Transformer：由 Google 在 2017 年提出，是 NLP 领域的里程碑式突破
引爆全球：虽然 Google 发明了 Transformer，但真正将 LLM 推向大众的是 OpenAI
鼻祖地位：GPT（Generative Pre-trained Transformer）系列可以被视为这一轮 AI 浪潮的鼻祖

💡 一句话理解：LLM 就是一个经过海量文本训练的"超级文字接龙选手"。

二、LLM的工作原理：文字接龙游戏

LLM 的核心机制非常直观——预测下一个词。

工作流程

用户输入问题 → 模型预测下一个概率最高的词 → 将预测的词加入上下文 
→ 再次预测 → 循环往复 → 预测结束，输出完整回答

这个过程就像我们在玩文字接龙：你给出开头，模型根据已学到的语言规律，一步步"接"出最合理的下文。

三、Token：大模型处理文本的最小单元

什么是 Token？

Token 是大模型处理文本的最基本单位。用户输入的文字不会直接交给模型，而是需要经过 Tokenizer（分词器） 进行编码。

编码过程：切分 + 映射

步骤	说明
切分	将用户的问题拆分成若干小块，每一块就是一个 Token
映射	每个 Token 对应一个唯一的数字（Token ID）

解码过程：映射还原

模型输出的是数字序列，再经过 Tokenizer 解码，将 Token ID 映射回文字，最终呈现给用户。

Token 的"大小"

语言	换算关系
英文	1 Token ≈ 0.75 个单词
中文	1 Token ≈ 1.5 ~ 2 个汉字

⚠️ 实际影响：这也是为什么中文对话比英文更"费 Token"，同样的内容中文会消耗更多上下文空间。

四、Context：大模型的"临时记忆"

Context（上下文）

Context 是大模型每次处理任务时所接收到的信息总和，可以理解为模型的临时记忆体。模型就是基于这些上下文信息来理解和回答问题的。

Context Window（上下文窗口）

这是 Context 能容纳的最大 Token 数量，是衡量模型能力的重要指标之一。

模型	上下文窗口
GPT-4	约 128K Token
Gemini 1.5 Pro	1,000,000 Token
Claude 3 Opus	200,000 Token

📌 窗口越大，模型能"记住"的信息就越多，处理长文档、复杂对话的能力就越强。

五、RAG：让大模型"开卷考试"

RAG（Retrieval-Augmented Generation，检索增强生成） 是一种让大模型更准确的实用技术。

核心思路

与其让模型靠"死记硬背"来回答，不如让它先查资料再回答——就像开卷考试一样。

工作流程

用户提问 → 从知识库中抽取最匹配的几个片段 → 将这些片段发给大模型 
→ 大模型基于这些片段生成回答

RAG 的优势

✅ 解决模型"幻觉"问题（胡说八道）
✅ 让模型掌握最新、私域知识
✅ 回答可溯源、更可信

六、Prompt：与模型对话的"咒语"

Prompt（提示词） 是大模型接收的具体问题或指令，是与 AI 交互的核心媒介。

两种 Prompt

类型	作用	示例
User Prompt	用户的具体问题或请求	“帮我写一封求职邮件”
System Prompt	设定模型的角色和行为规则	“你是一位专业的职业规划师，回答要简洁专业”

🎯 Prompt Engineering（提示词工程） 就是研究如何写出更好的 Prompt，让模型输出更精准、更符合预期的结果。

七、Tool：让大模型长出"手脚"

大模型本身只能"说话"，但现实世界需要它感知和影响外部环境。Tool（工具函数） 就是为此而生的。

交互流程

用户输入问题 → 大模型判断需要调用工具 → 生成工具参数 → 平台调用工具 
→ 工具返回结果 → 平台将结果发给大模型 → 大模型总结后回复用户

三方协作

角色	职责
大模型	选择使用什么工具，生成参数，归纳总结
工具	完成具体的动作（查天气、搜网页、调用API等）
平台	串联整个流程，负责调度执行

八、MCP：工具的"统一接口"

MCP（Model Context Protocol，模型上下文协议） 是由 Anthropic 提出的统一工具接入规范。

为什么要 MCP？

在没有统一标准之前，每个工具都需要单独对接，开发成本高、扩展性差。MCP 就像 USB 接口 一样，让不同的工具可以用统一的方式接入大模型。

🔌 类比：以前每个手机充电器都不一样，USB-C 统一了接口，MCP 就是 AI 工具的"USB-C"。

九、Agent：从"工具人"到"智能体"

Agent（智能体） 是大模型应用的更高阶形态，核心特征是具备自主规划和自主调用工具的能力。

Agent vs 普通工具调用

普通工具调用	Agent
用户指定用什么工具	模型自己判断用什么工具
单步执行	多步规划、自主决策
被动响应	主动思考、迭代优化

Agent Skill：给 Agent 的"说明书"

为了让 Agent 更好地完成任务，需要给它编写 Agent Skill（技能说明文档），通常包含两层结构：

🔹 元数据层

name：技能名称
description：技能描述（让 Agent 知道什么时候该用这个技能）

🔹 指令层

具体的执行说明，格式可以自定义
目标是让 Agent 清楚：这个技能能做什么、怎么用、什么时候用

十、知识地图：一张图串联所有概念

┌─────────────────────────────────────────────────────────────┐
│                        用户交互层                             │
│         Prompt（提示词）→ 驱动整个对话                         │
└─────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────┐
│                        模型能力层                             │
│  LLM（基于 Transformer）                                      │
│    ├── Token（文本处理单元）                                   │
│    ├── Context（临时记忆）                                     │
│    └── Context Window（记忆容量）                              │
└─────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────┐
│                        增强能力层                             │
│    ├── RAG（检索增强）→ 解决知识盲区                           │
│    ├── Tool（工具调用）→ 扩展外部能力                           │
│    └── MCP（统一协议）→ 标准化接入                              │
└─────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────┐
│                        智能体层                               │
│         Agent（自主规划 + 自主调用工具）                        │
│              └── Agent Skill（技能说明书）                      │
└─────────────────────────────────────────────────────────────┘

结语

从 Transformer 到 Agent，大语言模型的技术栈正在快速演进。理解这些核心概念，不仅能帮助你更好地使用 AI 工具，也能为深入学习 AI 技术打下坚实基础。

记住这个核心逻辑：

LLM 是"大脑"，Token 是"语言"，Context 是"记忆"，RAG 是"知识库"，Tool 是"手脚"，MCP 是"接口标准"，Agent 是"完整的人"。

希望这篇文章能帮你构建起清晰的 AI 认知框架。如果你有任何问题，欢迎在评论区交流！

本文基于个人学习笔记整理，如有疏漏欢迎指正。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI-Web 靶场

查本机网段 → 全网段扫描存活主机 → 确定靶机 IP → 端口扫描 → 服务版本探测 → 网站目录扫描 → 找物理路径 → 手工测注入 → Sqlmap 脱库 → 上传一句话木马 → 蚁剑连 Shell → 反弹交互式 Shell → 提权 → 拿 Flag。猜测可能存在文件上传漏洞，依次访问sqlmap上传的文件，在最后一个文件发现sqlmap 自带的文件上传页面。Sqlmap 核心功能：漏

AtomGit开源社区

2026 商城系统源码实战 - 技术指南

本文从技术选型、架构设计、环境部署、核心模块开发、性能优化提供全流程实战方案，适合开发者、创业者、技术服务商直接落地，小白也能照着操作。2026 商城系统源码开发核心：技术选型要超前（JDK21 微服务）、源码要可控（全开源）、合规要到位（分账系统）、部署要高效（Docker）。docker-compose up -d account-service # 分账服务。docker-compose