这是"从 LLM 到 Agent Skill"系列的第一篇。我们从最底层开始——大语言模型到底是什么,它是怎么运作的。


一、什么是 LLM?

LLM(Large Language Model,大语言模型),是当前这场 AI 浪潮当之无愧的"C 位"。

你可能听过 ChatGPT、Claude、Gemini、文心一言、通义千问……这些产品的背后,都站着一个大语言模型。它们形态各异,但骨子里遵循同一套底层逻辑。

几乎所有现代大语言模型,都基于 Google 在 2017 年提出的 Transformer 架构。这个架构在当时只是一篇论文——《Attention Is All You Need》,如今回头看,说是改变了世界也不为过。


二、LLM 的本质:一个"文字接龙"游戏

如果你只能记住关于 LLM 的一件事,记住这个:

LLM 的本质,是一个基于概率预测的"文字接龙"游戏。

什么叫"文字接龙"?

你给模型一段文字,比如:

"今天天气真"

模型会在它学过的海量语料中,计算出下一个最可能出现的字是什么。它可能会算出:

  • "好"——概率 60%

  • "热"——概率 25%

  • "冷"——概率 10%

  • 其他——概率 5%

于是它输出"好"。然后把"好"拼接到输入末尾,继续预测下一个字:

"今天天气真好,"

继续:

"今天天气真好,适合"

继续:

"今天天气真好,适合出去走走。"

就这样一个词一个词地接下去,直到生成一个完整的回答。


三、Transformer 做了什么?

"文字接龙"这个比喻很直观,但底层显然不是真的在翻字典。LLM 内部运作的核心是 Transformer 架构

简单来说,Transformer 做了三件关键的事:

3.1 把文字变成数字(嵌入)

计算机不认识汉字,只认识数字。所以第一步是把每个词映射成一个高维向量——也就是一串数字。这叫 Embedding(嵌入)

3.2 理解上下文关系(注意力机制)

"Attention(注意力机制)"是 Transformer 的灵魂。

回到"今天天气真"这个例子。模型不是孤立地看最后一个字,而是会"关注"这句话里所有其他词之间的关系。比如它知道"今天"和"天气"是关联的,"真"后面通常接一个形容词。

这种让每个词都能"看见"句子中其他所有词的能力,就是"自注意力(Self-Attention)"。

3.3 层层堆叠,越来越"懂"

一个 Transformer 不是只有一层。GPT-4 据说有上百层。每一层都会重新计算词与词之间的关系,层层抽象,最终在最后一层输出每一个位置上最可能的下一个词的概率分布


四、一个关键认知:模型只会输出文本

这里有一个贯穿整个系列的核心认知,现在就要建立:

大语言模型唯一的能力,就是输出文本。

它不会"思考",没有"意识",不能"调用"任何外部工具,也无法"感知"外部世界。

后面我们会讲到的工具调用(Tool)、智能体(Agent)等等,本质上都是围绕这个只会"文字接龙"的核心引擎,在外部搭建的一套脚手架。

明白这一点,你就抓住了理解一切 AI 应用的钥匙。


五、LLM 是怎么训练出来的?

虽然这不是本文的重点,但简要提及三个核心阶段有助于建立完整的认知:

阶段 做什么 目的
预训练(Pre-training) 在海量文本上做"文字接龙"练习 让模型学会语言规律、世界知识
监督微调(SFT) 用高质量的"问题-回答"对训练 让模型学会"对话",知道什么是好答案
人类反馈强化学习(RLHF) 人类对回答打分,模型据此调整 让回答更符合人类偏好(有帮助、安全、无害)

六、主流模型一览

目前(2025~2026年),市面上的主流大模型可以分为几大阵营:

海外

模型 开发方 特点
GPT-4o / GPT-4.5 OpenAI 多模态、生态成熟、ChatGPT 加持
Claude 4 系列(Opus / Sonnet / Haiku) Anthropic 安全性强、代码能力突出、Context Window 大
Gemini 2.5 Google 原生多模态、与 Google 生态深度整合

国内

模型 开发方 特点
DeepSeek 深度求索 开源、推理能力强、性价比高
Qwen(通义千问) 阿里 开源生态活跃、中文能力强
文心一言 百度 中文理解细腻、本土化做得好
Kimi 月之暗面 超长上下文、RAG 能力强

七、总结

LLM 这个第一块积木,记住三句话就够了:

  1. LLM 基于 Transformer 架构,本质是"文字接龙"——逐词预测下一个最可能的输出。

  2. LLM 唯一的能力是输出文本,它不会思考、不能调用工具、无法感知世界。

  3. 所有更上层的 AI 能力(工具、Agent 等),都是围绕这个核心引擎搭建的外部系统。

下一篇,我们来聊聊 LLM 是怎么"读"文字的——Tokenizer 与 Token,也就是模型处理文本的最小单元。


本系列文章:

  1. LLM 大语言模型 ← 你在这里

  2. Token 与 Tokenizer(待发布)

  3. Context 与 Context Window(待发布)

  4. Prompt 提示词(待发布)

  5. Tool 工具调用(待发布)

  6. MCP 模型上下文协议(待发布)

  7. Agent 智能体(待发布)

  8. Agent Skill(待发布)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐