从底层逻辑了解AI

它的底层逻辑极简纯粹：只用Transformer解码器，专注文字生成，不搞复杂多余结构。每一代都在扩大参数、优化训练数据、强化逻辑推理。GPT系列的优势极其明显，它是通用能力天花板，逻辑推理、创意生成、代码编写、多语言处理能力均衡强悍，生态最完善，适配绝大多数AI工具。但同时，对比市面上的其他AI，它的上下文窗口中等，超长文本处理成本偏高，偶尔也会出现幻觉，但是，随着GPT系列的更新，它的严谨程度也越来越高了。

1.3.2 严谨学霸：Anthropic Claude

Claude主打安全、严谨、超长上下文，是职场办公、资料分析的首选模型。

它有以下几个特点，上下文窗口极大，可一次性读取几十万字文档、整本书籍；幻觉概率偏低；合规性强，价值观端正，拒绝违规内容的判定更严格。但是，它的创意发散能力弱于GPT，脑洞、趣味创作、灵活改写表现一般。

1.3.3 图像黑马：Google Gemini

谷歌作为Transformer的发明者，Gemini是其巅峰力作，主打多模态全能。

它的优势主要体现在这几点：图文音视频全能解析，识图、解析图表、识别视频内容能力顶尖；数学、理科、逻辑推理硬核强悍，专业学术能力突出；免费版能力出色，性价比高。但是，它的对话流畅度、人性化语感略逊于GPT，中文本土化优化稍弱，且在使用的过程中，出现幻觉的情况较多。

1.3.4 国产主流模型

国内所有大模型均基于Transformer架构二次开发，适配中文语境：

阿里通义千问在办公、文案、中文理解优化出色；百度文心一言在本土化知识、实时资讯适配性强；DeepSeek的代码能力强悍，开源免费，适合技术开发者；而我们日常使用最多的豆包，极致轻量化，通俗易懂，贴合普通人日常使用。

1.4 大模型完整工作流程

当你输入一句话后，AI到底经历了什么？一下这张流程图，将会讲明清楚ai所做的一切。

1.5 LLM关键特性

首先，AI是天生概率主义，必然存在幻觉。AI只会预判概率，不会辨别真假。遇到陌生知识，它会强行编造通顺答案，这就是AI幻觉，逻辑越通顺，不代表内容越真实。其次，AI上下文有限，存在记忆上限。每款模型都有固定上下文窗口，超出字数后，AI会遗忘前文内容，出现逻辑断裂。再者，AI训练数据有时间截止线。模型训练数据停留在固定时间，无联网能力时，无法获取截止时间后的新鲜资讯，这就是基础模型不懂实时新闻的原因。最后，也是最重要的是，AI没有自主意识，被动响应指令。它不会主动思考、不会拥有情绪、不会产生想法，你的提示词（Prompt）就是它的唯一行动指令，提示词质量直接决定回答质量。

二. Token

当迈过了LLM的坎，明白AI是逐字预判、依靠概率生成回答之后，人们一般都会卡在第二个核心疑问上：

AI的本质是神经网络，只会冰冷的数学矩阵运算，它看不懂汉字、英文，也识别不了标点。那我们输入的人类文字，究竟是怎么塞进模型里运算的？

想要解开这个疑问，就必须弄懂决定AI计费、记忆能力的核心根源——Token。

一下这个流程，是Token的核心流程：

人类文字 → 机器切分 → Token碎片 → Token ID编号 → 数字向量 → 送入模型 → 矩阵运算 → 解码还原文字

2.1 认知误区：Token = 汉字

Token的定义是这样的：它是大模型能够识别、处理的最小文本单元。Token不是单个汉字、也不是完整词语，它是机器按照规则切分出来的“文字最小碎片”。它的组成形式十分灵活，没有固定规则。在英文里，它可以是一个完整单词、单词后缀、词根；在中文里，它可以是一个汉字、两个连在一起的常用汉字；此外，在特殊符号中，标点、空格、emoji、换行，也要全部单独算作Token。

接下来，我们来举一个通俗的例子：我爱吃苹果。

站在人类视角，我们认字是独立拆分：我、爱、吃、苹、果

站在AI视角，机器会按高频用词习惯拆分：我爱、吃、苹果

这就是人和AI最核心的文字认知区别：人类以“字”为基础单位，AI以“Token碎片”为基础单位。

2.2 Tokenizer（AI专属翻译官）

既然AI天生看不懂人类文字，只能识别运算数字，就需要一个专属中间工具，搭建人和AI的沟通桥梁，这个关键工具就是 Tokenizer（分词器），它是一个AI的专属翻译官。

Tokenizer唯一工作职责极其简单，终生只负责两件事，构成AI输入输出的完整闭环：

编码（Encode）：拆解人类文字、切割为Token碎片，最终映射为专属数字编号（Token ID）
解码（Decode）：接收模型输出的数字编号，还原拼接为Token，最终转化为人类可读的文字

用一下一句话举例：今天天气很好，下图是它的工作流程：

2.3 为什么中文的token更贵？

在日常的使用中，我们会发现，同样是用token，中文竟然比英文贵。其实，原因就在这里；英文语境下，平均4个字符≈1个Token，而在中文环境下，1-2个汉字≈1个Token。中文分词密度更低、拆分成本更高，同等字数下中文消耗的Token远多于英文，这也是国内用户使用海外大模型计费更贵的核心原因。

一个AI，哪怕模型参数再庞大、算力再强悍，没有Tokenizer做翻译拆解，它就只是一堆无法识别文字的无用矩阵。Tokenizer是AI的唯一文字入口，没有分词拆分，就没有AI的一切交互能力。

三. Context

AI为什么能记住你上一句话？为什么聊天久了它会突然忘事？为什么上传超长文档会错乱？这一切，全部由今天这个词决定——Context（上下文）。

3.1 什么是Context？

准确来讲，Context就是AI当下这一轮任务里，能看见、能记住、能读取的全部信息总和。

对了，不要只以为它只保存聊天记录，完整Context包含以下四类信息：

历史对话：你们之前所有聊天、提问、回答；
当前输入：你此刻发的这句话、这段文字；
工具列表：AI可调用的工具、功能、权限；
任务指令：你给AI的角色、要求、规则、限制。

只要进入Context，AI就能看见；一旦超出Context，AI彻底看不见、记不住。

3.2 另一个概念：Context Window（上下文窗口）

Context Window是指AI内存条的最大容量，单位是Token。每一个大模型，都有固定的内存上限。你所有的聊天、文档、指令、历史记录，全部都会转换成Token塞进窗口里。塞满之后，最先进去的内容直接被丢弃，AI永久遗忘。

同时，上下文窗口有一个公式：上下文窗口 = 输入Token + 输出Token 总和上限。

3.3 2026主流大模型上下文窗口数据

GPT-5.5 (OpenAI)：105万；

Claude Opus 4.7 (Anthropic)：100万；

Gemini 3.1 Pro (Google)：100万

3.4 RAG 如何解决 Context 上限问题？

哪怕是GPT-5.5的105万Token窗口，依然存在物理上限，不可能无限装下数据。想要突破临时内存限制，就必须用到现在全网爆火的RAG（检索增强生成）。

RAG：外置知识库

Context是临时内存条，塞满就丢；RAG是外置储存盘，数据永久保存，不会占用上下文窗口额度。以下一张图可以直观的展现它的工作原理：

四. Prompt

一台只会算数字、只有短期内存的AI，凭什么听话？凭什么做出不同风格、不同质量的回答？答案只有一个：Prompt（提示词）

4.1 Prompt是什么？

Prompt是人类丢给大模型的一切指令文本，是人和AI唯一的沟通语言。写好Prompt不需要文采，只需要做到六个字：具体、清晰、明确。

4.2 Prompt的分类

第一种：System Prompt（系统提示词）。它是后台隐形指令，你看不到，但是优先级最高。

System Prompt相当于给AI定人设、定底线、定做事规则。在聊天开始前，就被写入Context，永久生效。官方出厂限制、自定义角色、禁止违规回答、回答语气、思维方式，全部由它管控。比如，你让AI做专业顾问、禁止编造信息、说话通俗易懂、严禁废话，这些底层约束，全部写在System Prompt里。它藏在后台，不会显示在聊天界面，却从头到尾霸占内存，约束AI所有行为。

第二种：User Prompt（用户提示词）。就是你手动输入的每一句话。

你日常的提问、要求、文案生成、修改指令，全部属于User Prompt。它是动态的、实时的，每发送一次，就追加进Context上下文。我们普通人平时打字输入的内容，全部都是User Prompt。

五.tool

原生大模型是封闭的，它看不见外界、连实时信息都获取不到。它的训练数据有截止时间，无法联网、无法查询、无法实操、无法获取外部数据。想要打破限制，让AI拥有外部能力，就必须依靠——Tool（工具）。

5.1 Tool：一个可被调用的固定函数

很多人把工具想的很复杂，其实Tool本质就是提前写好的函数。它没有思维、没有判断、不会自主运行，本身没有任何智能，唯一作用就是给大模型提供它本身不具备的外部能力。比如天气查询、实时搜索、代码运行、文件解析、计算表格，全部都是最简单的工具函数。原生LLM只能靠旧数据推理，搭配Tool之后，AI才能触碰真实外界。

5.2 完整工具调用

一个完整的调用过程是这样的：用户提问→大模型选工具→平台中转→工具执行→数据回传→模型总结输出

用最简单的天气查询案例，一次性讲透完整流转流程，全程只有四个参与角色：用户、大模型、工具、平台。我将用以下的流程图来完整的概述整个过程：

六. MCP

每一家大模型平台，工具接入大模型的标准全部不一样。OpenAI一套格式、Anthropic一套格式、Google又是另一套格式。你写一个天气工具、文档工具，想要换一个模型使用，就要重新改写代码、适配新规范，重复劳动、极度繁琐。工具无法通用、接口互不兼容，这就是AI行业碎片化乱象。

为了解决这个问题，全网现在爆火的MCP 应运而生。

6.1 MCP是什么？

MCP（Model Context Protocol，模型上下文协议），AI行业统一通用接口标准。

它由Claude母公司Anthropic在2024年11月开源推出，它可以理解为AI界的USB-C通用接口。以前安卓、苹果、充电口各不相同，现在统一Type-C；以前GPT、Claude、谷歌工具接口各不相同，现在统一MCP。

MCP唯一目的就是把工具接入规则标准化，一套工具，所有大模型通用。

6.2 MCP诞生的原因

在MCP没出现之前，所有平台各自为战，规则封闭。OpenAI有自己的函数调用格式，参数写法、传输逻辑独有；Anthropic Claude格式完全不同；Google Gemini又是另一套交互规范。开发者想要把同一个工具上架到不同AI平台，必须反复改写、反复适配、反复调试，成本极高。工具无法迁移、无法互通、复用率极低。

MCP就是为了打破这种壁垒而生：它制定一套公开、统一、通用的通信协议，不管是什么模型、什么平台，只要遵守MCP规范，工具直接一键接入、直接使用，不用二次改写。

6.3 MCP在干什么？

没有MCP的时候，工具必须适配平台，平台格式卡住工具，换模型就要重做工具。当有了MCP后，工具按照MCP标准编写，MCP充当中间翻译层，统一对接所有大模型平台。不管是GPT、Claude还是Gemini，全部识别同一套工具语言，不需要额外改造。它不生产工具、不产生智能、不修改模型，只做一件事：统一规则、打通壁垒、兼容所有平台。

七. Agent与Agent Skills

Agent 和 Agent Skills 是什么，他们到底差在哪里？总结下来，Agent是会自主干活的人，Agent Skills是提前写好、存在硬盘里的工作手册。一个是活体智能体，一个是固化文档。

7.1 Agent：拥有自主执行能力的智能个体

普通大模型永远被动，人发一句、它回一句，不会主动行动。而Agent（智能体）最大的区别就是拥有自主性。它可以接收用户一个笼统任务，依靠自身LLM大脑自主规划步骤，主动判断需要哪些工具，并且能够多次、反复调用工具。不会因为一次调用失败就停止，也不会因为信息不足就胡乱回答，它会持续调取资源、反复校验，直到完整达成用户任务才结束流程。

市面上目前比较热门且强大的三款Agent，Claude Code、Codex、Gemini CLI。Claude Code偏向大型工程项目自主开发，Codex主打轻量化代码编写调试，Gemini CLI专注服务器终端自动化运维，三者全部具备无人工干预、循环调用、自主纠错的能力。

7.2 Agent Skills：存在硬盘里的固化技能文档

很多人误以为Skills是AI自己学会的能力，这是严重误区。Agent Skills 不是天赋，是提前写好的 Markdown 说明文档。它不会动、不会思考、不会执行，只能安静储存在本地硬盘。整体分为两层结构：一层是原数据层，存放原始参考资料、素材、基础数据；另一层是指令层，写死执行规范、流程要求、做事逻辑。

你可以把它理解为给Agent准备好的工作SOP手册。Agent本身智商有限，提前给它存入结构化文档，它在需要的时候读取硬盘、加载技能、按照固定流程执行任务。没有Skills文档，Agent只能靠原生大脑思考；加载Skills文档，它就能熟练执行定制化复杂工作。

7.3 智能体 + 固化技能 = 完整AI

Agent是执行主体，负责自主规划、反复调用工具、完成闭环任务；Agent Skills是外置静态文档，保存在硬盘，给Agent提供固定流程、规范、原始数据。

单纯的Agent聪明但是没有流程，容易逻辑乱跑；单纯的Skills文档只是一堆死文字，无法自己运行。当Agent读取硬盘载入Skills文档，动态自主能力 + 静态固化流程结合，才是现在行业主流的高级智能体架构。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SpringBoot+Vue 体育馆使用预约平台平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

AtomGit开源社区

RNN案例之:人名分类器

以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名

AtomGit开源社区

【复合微电网模型】基于IEEE 14节点标准模型的复合微电网模型，微电网包括柴油发电机、光伏模型、电池储能系统、电弧炉等非线性负载（Simulink仿真实现）

基于IEEE 14节点标准模型的复合微电网模型。微电网包括柴油发电机、光伏模型、电池储能系统、电弧炉等非线性负载。微电网以并网模式运行。使用了IEEE 14总线标准模型来构建这个模型。柴油发电机参数来源于文献1一种使用鲁棒控制理论的微电网软同步新方法，IEEE Transactions on Power Delivery，2017摘要：微电网是未来电力系统的主体，被称为“智能电网”。在这种情况下，

AtomGit开源社区

所有评论(0)

查看更多评论

一年级的小豆包鸭

@2402_88829511

已为社区贡献5条内容

从底层逻辑了解AI

一年级的小豆包鸭

前言：写给完全不懂技术的普通人

一.LLM

1.1 到底什么是LLM？

1.2 LLM的灵魂：Transformer

1.2.1 Transformer是什么？

1.2.2 为什么它能碾压旧技术？

1.2.3 拆解Transformer核心结构

① 编码器（Encoder）：读懂

② 解码器（Decoder）：生成

③ 自注意力机制：核心大脑

④ 位置编码：分清语序

1.2.4 Transformer架构图

1.3 市面上主流大模型盘点：GPT、Claude、Gemini到底区别在哪？

1.3.1 绝对鼻祖：OpenAI GPT系列

1.3.2 严谨学霸：Anthropic Claude

1.3.3 图像黑马：Google Gemini

1.3.4 国产主流模型

1.4 大模型完整工作流程

1.5 LLM关键特性

二. Token

2.1 认知误区：Token = 汉字

2.2 Tokenizer（AI专属翻译官）

2.3 为什么中文的token更贵？

三. Context

3.1 什么是Context？

3.2 另一个概念：Context Window（上下文窗口）

3.3 2026主流大模型上下文窗口数据

3.4 RAG 如何解决 Context 上限问题？

四. Prompt

4.1 Prompt是什么？

4.2 Prompt的分类

五.tool

5.1 Tool：一个可被调用的固定函数

5.2 完整工具调用

六. MCP

6.1 MCP是什么？

6.2 MCP诞生的原因

6.3 MCP在干什么？

七. Agent与Agent Skills

7.1 Agent：拥有自主执行能力的智能个体

7.2 Agent Skills：存在硬盘里的固化技能文档

7.3 智能体 + 固化技能 = 完整AI

所有评论(0)

温馨提示：您尚未绑定手机号

一年级的小豆包鸭