小白程序员必看：收藏！一文搞懂大模型中的Token概念与计费逻辑

热爱python的小谢

402人浏览 · 2026-03-29 12:00:00

热爱python的小谢 · 2026-03-29 12:00:00 发布

本文深入浅出地解释了AI大模型中Token的核心概念，即如何将人类语言转换为数字进行计算。Token不仅是大模型的计费单位，还涉及转换规则、参数意义及上下文窗口等关键要素。文章强调大模型虽无记忆，但通过上下文窗口整合历史信息来模拟记忆功能。对于想要了解大模型基础并避免计费陷阱的小白和程序员来说，本文提供了实用的知识框架和注意事项。

Token 的概念

Token 在大模型领域中是一种计算单位。大模型本质上是在进行数学运算。但是人类的语言是没有办法直接进行数学运算的，所以大模型会将人类的语言先转换为数字（Token），然后再进行数学运算。

由于这个特性，Token 也变成了大模型的计费单位。大模型的收费标准也是按照 Token 的运算次数来收费的。可以理解为:大模型帮你运算了多少次，一次运算(一个 Token)多少钱。

本文讨论的 Token，特指 AI 大模型背景下面的 Token。与很多程序员平时开发权限校验系统中用到的 Token，两者是不同的概念。

文字转 Token

OpenAI 提供了一个将文字转换为 Token 的页面tokenizer[1]，在这个页面中可以清晰的看懂什么是 Token。下图中可以看到：“微信公众号关注四千岁”，这 10 个中文被切分成“微信公众号”、“关注”、“四”、“千”、“岁”，这 5 个 Token 了。

什么是Token?

看懂了吗？在 AI 领域，我们常说的 Token，就是这个意思。一个 Token 可以代表一个汉字，也可以代表多个汉字。

每个 Token 都有一个与之对应的唯一数字(TokenID)，比如：“微信公众号”，这个 Token 就有一个唯一的数字(TokenID)：179951。如下截图：

TokenID

其他符号也能转换为 Token

除了文字可以转换为 Token 之外，我们常用的表情和符号，也可以转换为 Token。

表情也能转换为 Token

Token 的转换规则

一句话来说就是：高频组合+语义组合。Token 映射的核心目标是平衡语义完整性和计算效率 —— 高频组合合并可减少 Token 总量，提升模型处理效率。

Token 转换时，首先会将你输入的一段文字进行拆分。拆分成一个一个的单个文字，然后判断哪些文字经常连在一起使用，发现高频组合的文字之后，就会把对应的文字组合在一起，这个高频组合就会变成一个Token。当然，这也并不是固定的。训练大模型时，有的公司会特意人工介入去调优这种转换规则。总之，Token 转换的基本原理就是这样。

语义组合说的是：字和字组合在一起，要有意义，人类要能看得懂。要能准确描述一个东西或一件事情才行。即便部分组合无实际语义，但只要是人类可理解的（例如网络热梗 “巴巴博一”），也会被归为一个 Token。

Token 转换规则是固定的吗？

文本到 Token 的转换规则并不是固定的，每个公司训练大模型的方式是不一样的，所以他们的文本转换 Token 的规则也是不一样的，甚至每家公司下面的每个大模型都有自己独有的 Token 转换规则。总之，在大模型这里 Token 大概就是这个意思。大模型会按照自己的规则，将文本转换为一个个的 Token，一个 Token 有可能对应一个中文，也有可能对应多个中文。

需要注意的是，由于每个大模型都有自己的 Token 转换规则，所以 TokenID 的唯一性仅局限于某一特定大模型的 Token 映射体系内（同一模型的不同版本也可能存在 TokenID 调整）。大家都有不同的 Token 转换规则，不能一概而论。

大模型的基本原理

大模型本质上就是一个数学公式，Token 就是数学公式中的计算因子。大模型根据你输入的 Token，进行数学运算，最后算出一个计算结果，计算结果肯定也是一个 Token 了。

模型参数

你可能在新闻中看到过类似这样的名字：Qwen3.5-397B-A17B。或者哪个模型有几百亿参数之类的。

B = Billion = 10亿。397B，就代表这个模型总共有 3970 亿个参数。A17B，代表这个模型回答问题时激活的参数。

大模型中的参数又是什么意思呢？首先要说明的是：大模型并不是我们想象中的那样，会把全世界的文章或者书籍一字不落的保存下来。

你让大模型给你背三国演义，大模型肯定不可能按照原著一字不差的给你背出来。大模型跟人类是一样的，你看完一本书，你的大脑只会对这本书有一个大概的了解，你在跟人讨论这本书的时候，也是基于你大脑中存储的关于这本书的大概观点去讨论的，你并不会把整本书背下来。

大模型也是这样，大模型保存的是知识点、是规律(规矩)、是常识，这些知识点和规律就是大模型的参数。

大模型中的一个参数等于一个知识点、一个常识、或者是一个规矩。比如，中国的手机号是 11 位的，这种就是一个知识点，也算是一个规矩。

大模型中的参数就是这个意思，一个397B参数的大模型只是存储了这个世界上的3970亿个知识点或者规律或者关键事件。A17B的意思是，当你向大模型提问某一方面的问题时，大模型会激活3970亿个参数中的其中170亿个参数(常识)，来回答你的问题。比如，你问医学领域知识时，大模型不会让3970亿个参数都参与计算，因为这3970亿个参数中可能只有50亿个参数是跟医学领域相关的，这类大模型也叫MoE(混合专家模式)。现在主流的大模型都是这种 MoE 模式。前几年的大模型基本上都是Dense类型的大模型，就是你不管问什么问题，3970亿个参数都会参与计算，这显然会造成大量的算力浪费。

Token 计算

你输入的问题首先会变成一个个的 Token，然后大模型会计算你的 Token，算出来的结果也是一个参数。大模型拿着这个参数，去跟大模型中现有的 3970 个参数进行关联，把关联性最强，可能性最大的 Token 筛选出来，这个过程也叫做推理。推理完成后，把筛选后的 Token 返回出去，这就是大模型给你的回答。

上下文窗口

你也可能经常在新闻中看到某个大模型的上下文窗口最大支持：200K Token。其中K(Kilo)是 1 千的意思，跟计算机中的存储单位kb(1 kb=1024 byte)是有区别的。

大模型的上下文窗口指的是:你发送给大模型的问题+大模型给你的回复，这些内容加起来不能超过 200K。

200K=200 * 1000 = 20 万 Token。1 个 Token 平均下来相当于 2 个汉字左右，200K Token 转换成中文大概在 30 万个汉字到 40 万个汉字之间。可以看一下国内大模型公司官网对于Token的解释，如下截图：

MiniMax官网关于 Token 的解释

智谱官网关于 Token 的解释

大模型是没有记忆的

在我们平时使用豆包这类 APP 时，你似乎能够感觉到大模型能记住你是谁，你都问过哪些问题。这是因为你在使用豆包进行提问时，豆包会将你之前问过的所有问题以及大模型之前给你的所有回答，一起打包发送给大模型。所以大模型才知道你是谁、问过哪些问题、大模型之前是怎么回复你的。

首先要说明的是，大模型本身肯定是没有记忆的，大模型就是一个数学公式，跟你初中见过的数学公式是类似的，数学公式肯定是没有记忆的。

我们举个例子：你在豆包上打开一个聊天框，你第一次输入问题：”你是谁？“，大模型回答：”我是豆包“。你第二次输入问题：”1+1 等于几？“，注意，此时豆包发送你的第二个问题时，会将你第一次的提问和大模型第一次给你的回答，再加上你第二次的提问，一起打包发送给大模型。正是因为这样，大模型才知道你是谁，你曾经问过什么问题。

对于大模型来说，你的每次提问都是一个新的上下文窗口，如果你不把第一次提问的内容发送给大模型，大模型实际上不知道你刚刚问了它什么，它也不知道它刚刚是怎么回答你的。你的每次提问对于大模型来说都是新的开始。你只有在每次提问时，把历史记录一起打包发送给大模型，大模型才能基于你前几次的问答，回答你本次的问题。也正是因为这样，所以你的 Token 消耗的才特别快。你看起来只发送了几个文字给大模型，但实际上你本次发送的内容包含了你之前的所有历史记录，消耗的 Token 可能是你预想的几十倍。如果你本次问的内容跟之前的问题没有关联，你最好在豆包上面新开一个对话，这样会省很多 Token。

当你提问的次数过多时，内容有可能超过大模型支持的最大上下文窗口，此时大模型会对你发送过来的内容进行截断处理，超出的部分会被大模型丢弃。此时，大模型给你的回复可能就没有那么准确了。

智谱官网对于超出上下文的处理

不过呀不用担心，像豆包、OpenClaw 这类应用在每次发送内容前，都会智能判断历史记录是否超过上下文窗口的大小，如果即将超过大模型支持的最大上下文窗口时，豆包会自动抛弃最开始的内容或者对话中最没有意义的内容，会保证你本次的提问能够完整的发送给大模型，并且也会给大模型的回答预留足够的空间以保证你本次的提问能够得到大模型的完整回答。

结尾

相信你看到这里已经大致了解了：大模型的基本原理、MoE大模型、Dense大模型、Token 的概念、模型参数等等。下次你在新闻中看到新的大模型发布，通过大模型的名字，你就能大概明白这个新的大模型有多厉害了。

如果你平时还在使用 ClaudeCode、OpenClaw、OpenCode 等等这些 AI 智能体，关注我。下篇文章我们来讲讲如何使用工具统计我们每天使用了多少 Token、ClaudeCode都调用了哪些工具、如何防止大模型公司乱扣费这些问题。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述 https://mp.weixin.qq.com/s/C8Eqg1SLGfANODzi0zGFwghttps://mp.weixin.qq.com/s/C8Eqg1SLGfANODzi0zGFwg

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI Agent Harness Engineering 在网络安全攻防中的角色

本文的核心目的是帮读者搞懂三个问题：什么是AI Agent Harness Engineering？它为什么是网络安全攻防场景下AI落地的必备基础设施？我们怎么在自己的安全团队里落地AHE？本文覆盖的范围包括AHE的核心概念、架构设计、核心算法、项目实战、落地场景、最佳实践等全链路内容，不涉及过于晦涩的底层大模型训练细节，所有知识点都可以直接落地到实际安全工作中。

AtomGit开源社区

deepseek生成的很多公式，复制到WORD中会乱码，我应该怎么做?

AtomGit开源社区

物流配送路径规划的动态Agent模型

物流成本占我国GDP的14.6%，其中路径规划不合理导致的浪费占物流总成本的30%以上，每年仅路径规划低效带来的直接损失就超过5万亿元。传统的物流路径规划大多基于静态VRP（车辆路径问题）模型：提前一天算好所有车辆的行驶路线，第二天按计划执行。但现实物流场景中存在大量不可控的动态因素：早晚高峰堵车、用户临时改地址、突发新增订单、骑手临时请假、极端天气导致路段封闭……这些动态事件会让提前规划好的路线