一文读懂大语言模型核心概念:从Transformer到Agent

阅读时间:约 8 分钟
适合人群:AI初学者、产品经理、技术爱好者


引言

2022年底,ChatGPT的横空出世让全世界第一次真切感受到了人工智能的力量。但在这股浪潮背后,究竟有哪些核心技术在支撑?本文将用通俗易懂的方式,带你系统梳理大语言模型(LLM)的核心概念,从底层架构到上层应用,构建完整的认知框架。


一、LLM是什么?——Transformer架构的产物

大语言模型(Large Language Model,LLM) 是基于 Transformer 架构 训练出来的语言模型。

  • Transformer:由 Google 在 2017 年提出,是 NLP 领域的里程碑式突破
  • 引爆全球:虽然 Google 发明了 Transformer,但真正将 LLM 推向大众的是 OpenAI
  • 鼻祖地位:GPT(Generative Pre-trained Transformer)系列可以被视为这一轮 AI 浪潮的鼻祖

💡 一句话理解:LLM 就是一个经过海量文本训练的"超级文字接龙选手"。


二、LLM的工作原理:文字接龙游戏

LLM 的核心机制非常直观——预测下一个词

工作流程

用户输入问题 → 模型预测下一个概率最高的词 → 将预测的词加入上下文 
→ 再次预测 → 循环往复 → 预测结束,输出完整回答

这个过程就像我们在玩文字接龙:你给出开头,模型根据已学到的语言规律,一步步"接"出最合理的下文。


三、Token:大模型处理文本的最小单元

什么是 Token?

Token 是大模型处理文本的最基本单位。用户输入的文字不会直接交给模型,而是需要经过 Tokenizer(分词器) 进行编码。

编码过程:切分 + 映射

步骤 说明
切分 将用户的问题拆分成若干小块,每一块就是一个 Token
映射 每个 Token 对应一个唯一的数字(Token ID)

解码过程:映射还原

模型输出的是数字序列,再经过 Tokenizer 解码,将 Token ID 映射回文字,最终呈现给用户。

Token 的"大小"

语言 换算关系
英文 1 Token ≈ 0.75 个单词
中文 1 Token ≈ 1.5 ~ 2 个汉字

⚠️ 实际影响:这也是为什么中文对话比英文更"费 Token",同样的内容中文会消耗更多上下文空间。


四、Context:大模型的"临时记忆"

Context(上下文)

Context 是大模型每次处理任务时所接收到的信息总和,可以理解为模型的临时记忆体。模型就是基于这些上下文信息来理解和回答问题的。

Context Window(上下文窗口)

这是 Context 能容纳的最大 Token 数量,是衡量模型能力的重要指标之一。

模型 上下文窗口
GPT-4 约 128K Token
Gemini 1.5 Pro 1,000,000 Token
Claude 3 Opus 200,000 Token

📌 窗口越大,模型能"记住"的信息就越多,处理长文档、复杂对话的能力就越强。


五、RAG:让大模型"开卷考试"

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种让大模型更准确的实用技术。

核心思路

与其让模型靠"死记硬背"来回答,不如让它先查资料再回答——就像开卷考试一样。

工作流程

用户提问 → 从知识库中抽取最匹配的几个片段 → 将这些片段发给大模型 
→ 大模型基于这些片段生成回答

RAG 的优势

  • ✅ 解决模型"幻觉"问题(胡说八道)
  • ✅ 让模型掌握最新、私域知识
  • ✅ 回答可溯源、更可信

六、Prompt:与模型对话的"咒语"

Prompt(提示词) 是大模型接收的具体问题或指令,是与 AI 交互的核心媒介。

两种 Prompt

类型 作用 示例
User Prompt 用户的具体问题或请求 “帮我写一封求职邮件”
System Prompt 设定模型的角色和行为规则 “你是一位专业的职业规划师,回答要简洁专业”

🎯 Prompt Engineering(提示词工程) 就是研究如何写出更好的 Prompt,让模型输出更精准、更符合预期的结果。


七、Tool:让大模型长出"手脚"

大模型本身只能"说话",但现实世界需要它感知和影响外部环境Tool(工具函数) 就是为此而生的。

交互流程

用户输入问题 → 大模型判断需要调用工具 → 生成工具参数 → 平台调用工具 
→ 工具返回结果 → 平台将结果发给大模型 → 大模型总结后回复用户

三方协作

角色 职责
大模型 选择使用什么工具,生成参数,归纳总结
工具 完成具体的动作(查天气、搜网页、调用API等)
平台 串联整个流程,负责调度执行

八、MCP:工具的"统一接口"

MCP(Model Context Protocol,模型上下文协议) 是由 Anthropic 提出的统一工具接入规范

为什么要 MCP?

在没有统一标准之前,每个工具都需要单独对接,开发成本高、扩展性差。MCP 就像 USB 接口 一样,让不同的工具可以用统一的方式接入大模型。

🔌 类比:以前每个手机充电器都不一样,USB-C 统一了接口,MCP 就是 AI 工具的"USB-C"。


九、Agent:从"工具人"到"智能体"

Agent(智能体) 是大模型应用的更高阶形态,核心特征是具备自主规划自主调用工具的能力。

Agent vs 普通工具调用

普通工具调用 Agent
用户指定用什么工具 模型自己判断用什么工具
单步执行 多步规划、自主决策
被动响应 主动思考、迭代优化

Agent Skill:给 Agent 的"说明书"

为了让 Agent 更好地完成任务,需要给它编写 Agent Skill(技能说明文档),通常包含两层结构:

🔹 元数据层
  • name:技能名称
  • description:技能描述(让 Agent 知道什么时候该用这个技能)
🔹 指令层
  • 具体的执行说明,格式可以自定义
  • 目标是让 Agent 清楚:这个技能能做什么、怎么用、什么时候用

十、知识地图:一张图串联所有概念

┌─────────────────────────────────────────────────────────────┐
│                        用户交互层                             │
│         Prompt(提示词)→ 驱动整个对话                         │
└─────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────┐
│                        模型能力层                             │
│  LLM(基于 Transformer)                                      │
│    ├── Token(文本处理单元)                                   │
│    ├── Context(临时记忆)                                     │
│    └── Context Window(记忆容量)                              │
└─────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────┐
│                        增强能力层                             │
│    ├── RAG(检索增强)→ 解决知识盲区                           │
│    ├── Tool(工具调用)→ 扩展外部能力                           │
│    └── MCP(统一协议)→ 标准化接入                              │
└─────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────┐
│                        智能体层                               │
│         Agent(自主规划 + 自主调用工具)                        │
│              └── Agent Skill(技能说明书)                      │
└─────────────────────────────────────────────────────────────┘

结语

从 Transformer 到 Agent,大语言模型的技术栈正在快速演进。理解这些核心概念,不仅能帮助你更好地使用 AI 工具,也能为深入学习 AI 技术打下坚实基础。

记住这个核心逻辑

LLM 是"大脑",Token 是"语言",Context 是"记忆",RAG 是"知识库",Tool 是"手脚",MCP 是"接口标准",Agent 是"完整的人"。

希望这篇文章能帮你构建起清晰的 AI 认知框架。如果你有任何问题,欢迎在评论区交流!


本文基于个人学习笔记整理,如有疏漏欢迎指正。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐