你每天用AI。

问问题、写文案、看代码、分析报表。

但你有没有想过一件事——

那个每次出现在账单、额度提醒、进度条旁边的词:Token,它到底是什么?又是怎么在你每一次对话里悄悄被消耗掉的?

很多人以为Token就是"字数"。

其实不是。


过去,我们不关心"字"是怎么被处理的

用搜索引擎的时候。

你输入一句话,回车,结果出来了。

你不用管它内部怎么分词、怎么倒排索引、怎么算相关性。

用Word的时候。

你写多少字就是多少字,按字数统计付费也好、按时间计费也罢,逻辑很直白。

但AI不一样。

AI的"理解"和"生成",不是读文字——而是读数字。

在你看到回答之前,你的那句话已经经历了一次完整的"拆解→编码→运算→解码"流水线。

而Token,就是这条流水线上最小的流通货币


Token 不是字,是AI眼里的"乐高积木"

大模型并不直接认识"你""好"这两个字。

它需要先做一件事:Tokenization(分词)——把你的整段文本,按一套训练好的词表规则,切成一系列碎片,每个碎片对应一个数字ID,然后才进入神经网络。

这套规则一般用的是 BPE(Byte Pair Encoding)​ 之类的子词算法:

  • 高频常见的片段 → 保留为一个完整Token(比如"你好"可能是1个Token,"人工智能"可能是1~2个Token)

  • 低频或不常见的词 → 拆成更小的子词拼起来(比如"unbelievable"拆成 un + believ + able

所以:

1个Token ≠ 1个字 ≠ 1个词

中文场景下,大致经验值是 1个汉字 ≈ 1.5~2个Token,英文大约 1个词 ≈ 1.3~1.5个Token。同样意思的一句话,用英文表达往往比中文"省Token"——这不是玄学,是分词表设计导致的结构性差异。

你可以把Token想象成乐高积木:常用的大块保留整体,不常用的拆成小块拼。模型用这套积木体系来"读"和"写"一切。


一次对话里,Token到底是怎么生成的?

这是最关键的部分。

很多人以为AI是"一口气把整段回答想好再输出"。

不是的。它是逐块生成的,而且每一块都依赖前面所有已经生成的内容。​ 这个过程叫 自回归生成(Autoregressive Generation)

拆开来看,一次完整的AI响应经历两个阶段:

第一阶段:Prefill(预填充)——"读题"

你输入的所有内容(用户消息 + 系统提示词 + 历史上下文)→ 被Tokenizer切成一串Token → 模型一次性并行处理完所有输入Token,算出初始的语义表征和KV缓存。

这个阶段相当于:AI把你的话从头到尾读一遍,建立理解。因为所有输入都已知,GPU可以做大规模的并行矩阵运算,效率很高。

第二阶段:Decode(解码)——"逐字作答"

读完之后,模型开始生成回答:

  1. 根据已有全部Token,预测下一个最可能的Token

  2. 把这个Token接到序列末尾

  3. 再预测下一个

  4. 再接上去

  5. ……循环,直到遇到"结束标记"或达到你设的长度上限

每一步只产出1个Token,而且第N+1步必须等第N步完成——不能并行、不能跳步

这就像一个人在纸上写字:写完第一个字才能判断第二个字该写什么,写完前十个字才能判断第十一个——永远只能从左到右推进。

技术上,为了不让每一步都重复计算前面的内容,模型用了 KV Cache(键值缓存)​ 来"记住"之前算过的注意力结果。但即便如此,每一步仍然要从显存里把整个模型权重读一遍——这就是为什么输出阶段是 memory-bandwidth-bound(内存带宽瓶颈),GPU大部分时间在等数据而不是在计算,效率只有 1%~5%。

一句话总结:输入是一次性的批量阅读理解,输出是逐字的串行书写。


那Token的消耗,到底消耗在哪?

每次你调用AI,消耗的Token分两大块:

① 输入Token(Input Tokens)

包含:

  • 你这次发的消息

  • 系统提示词(隐藏在后台的一段指令,告诉你用的AI"你是谁、怎么回答",通常几十到几百Token)

  • 历史对话上下文(之前聊的内容,只要没超窗口就还在占Token)

  • 如果你上传了文档/图片,内容转成的Token也算在这里

输入Token的特点是:一次性并行处理,单位算力成本低

② 输出Token(Output Tokens)

就是AI生成的每一个字、每一个标点、每一个代码符号——逐Token逐Token地"吐"出来,每个都占Token。

输出Token的特点是:串行生成,显存反复读写,单位算力成本高

所以几乎所有大模型API的定价都是:

费用 = 输入Token数 × 输入单价 + 输出Token数 × 输出单价

而且 输出单价通常是输入的 1.5~4倍

这不是AI公司在割韭菜。

背后是真实的物理不对称:输入时GPU满载并行干活,输出时GPU大部分时间在等显存搬数据

③ 隐藏消耗(很多人忽略的)

有几类"看不见的Token消耗":

  • 系统提示词:你每次对话,后台都带着一段"隐形文字",可能占几十到几百Token,你没打但它一直在被计费

  • 上下文滚动累积:对话越长,历史越多,每次都在输入里"背着"之前的记录走——直到触顶截断或你手动清掉重启

  • 推理模型的"思考Token":像 DeepSeek-R1 这类会先"内心推导"再回答的模型,那个思考过程也会产生Token,同样计费


知道这些,有什么用?

有人会说——

我又不是工程师,知道Token怎么生成有什么意义?

其实意义不在于你能不能手算Token数。

意义在于:你开始用"资源视角"而不是"魔法视角"看AI。

当你理解了Token是逐块生成的自回归过程,你就自然理解了:

  • 为什么AI有时会说到一半"跑偏"或前后矛盾——因为它每个字只基于"已生成部分"来预测,并没有一个全局计划蓝图在脑子里

  • 为什么回复越长越贵、也越容易质量漂移——序列越长,注意力越分散,累积误差越大

  • 为什么精简提问 = 实打实降本提效——少废话不只是礼貌,是直接砍掉输入Token和上下文负担

  • 为什么长对话定期重启不是"断了感情",而是释放被死上下文绑住的算力预算

这些不是技巧。

理解你跟AI协作的成本结构和能力边界之后的判断力。


AI时代,真正的分水岭不在"会不会用"

过去,会用电脑的人比不会用的人多一层竞争力。

后来,会用AI工具的人开始拉开差距。

但再往后走——

真正拉开差距的,不是你会不会点对话框,而是你对"AI到底在干什么"有没有准确的心理模型。

Token只是入口。

顺着它往下挖,你会碰到一连串更本质的问题:模型怎么理解语义、怎么分配注意力、能力的上限在哪、哪些事该交给AI、哪些事必须人来做决策。

能从"用工具"走到"理解工具",再从"理解工具"走到利用工具稳定创造价值——

这条路,本质上就是越来越多人在讨论的:

不是多会用Prompt,而是你有没有把自己从"执行者"升级成"调度者"。

而调度者的第一步,就是知道你调度的资源到底是怎么被吃掉的。


Token不会告诉你AI有没有智慧,但它会诚实地告诉你——每一次对话,算力往哪走了,钱往哪花了,效率卡在哪了。把它当成一个"看清协作真相"的镜头,比把它当账单上的数字有意义得多。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐