同一个英文单词,为何在计算机里叫“令牌”,在 AI 里叫“词元”?
本文带你穿越千年,看懂 Token 的演变逻辑。


一、概述

  • 简介 Token 在三个时代的核心含义:古代信物、计算机令牌、AI 词元

  • 对比不同时期的中文翻译及其背后的技术范式

  • 本文重点是对 Token 概念演变的理解,以及翻译如何反映本质变化

二、资料来源

  • 历史文献:《史记·魏公子列传》(虎符典故)

  • 计算机科学:RFC 6749(OAuth 2.0 令牌规范)

  • AI 技术:OpenAI API 文档、NLP 分词原理

  • 中文译名考证:技术社区讨论及主流产品翻译实践

三、为什么要追溯 Token 的含义

在技术领域,同一个英文术语在不同场景下可能承担截然不同的角色。如果沿用旧译名,容易造成误解:

  • 在安全场景中,Token 是“钥匙”,用于鉴权;

  • 在 AI 场景中,Token 是“砖块”,用于计量。

若不区分,开发者可能会困惑:“为什么我的访问令牌(Access Token)要按个数收费?”
明确 Token 在各阶段的本质,有助于准确理解技术文档和架构设计。

四、Token 的千年演变:三个关键时代

4.1 古代:Token = 虎符 / 信物

核心含义:实物凭证,验证身份与权限。

图片

古代 Token 表现为实物信物。中国最典型的例子是 虎符。虎符分为两半,皇帝持右半,将领持左半;调兵时必须左右相合,方可发令。成语“符合”即源于此。

在西方,古希腊的 tessera 陶片也扮演类似角色——士兵凭它进入营地,观众凭它入场观看角斗。

中文翻译:在历史小说或译作中,这类信物常被直译为 “令牌” 或 “信物”。例如《冰与火之歌》中文版中,“信使令牌”就是传递命令的凭证。

4.2 计算机时代:Token = 访问令牌

核心含义:数字密钥,授权与认证。

图片

进入计算机领域,Token 被借用到网络安全中。最典型的是 Access Token(访问令牌)

当你登录微信、支付宝或任何网站时,服务器会返回一串字符。后续每次请求带上它,服务器就能识别你的身份,无需重复输入密码。

这个阶段的 Token 本质是一把“钥匙”,翻译为 “令牌” 非常贴切——它既继承了古代信物的认证功能,又数字化了。

4.3 AI 时代:Token = 词元

核心含义:最小语义单元,计量单位。

图片

大模型出现后,Token 的含义发生了根本转变。模型不认识文字,需要将自然语言切分成它能处理的最小单元——这个单元就叫 Token。

“我爱你”可能被切成 3 个 Token(我、爱、你)。

“ChatGPT”可能被切成 1 个 Token。

一个汉字可能占 1 个或 2 个 Token,取决于分词算法。

它既不是严格意义上的“字”,也不是“词”,而是最小的语义承载单元。技术界将其译为 “词元”——“词”指向语言,“元”指基本元素。

此时的 Token 不再是钥匙,而是计量单位:模型的收费按词元数算,能力上限按上下文词元长度衡量。

五、Token 演变对比表

时代

典型场景

核心含义

中文译名

本质作用

古代

虎符、tessera

实物信物

令牌 / 信物

验证身份与权限

计算机

Access Token

数字密钥

访问令牌

认证与授权

AI

大模型分词

语义单元

词元

量化输入与输出

六、一个中文词语的类比:“经济”的变迁

中文里也有一个词,含义随时代发生了巨大变化——“经济”

  • 古代:“经济”意为“经世济民”,指治国安邦的才能。如《红楼梦》中“学问经济”,即指治世之能。

  • 近现代:被借用来翻译西方的 economy,变成了今天我们说的“经济活动、GDP、市场经济”。

同一个词,从“治国抱负”变成了“资源配置”,跨度之大,不亚于 Token 从“虎符”到“词元”的演变。

七、总结

类别

时代

关键词

翻译

应用场景

信物时代

古代

虎符、tessera

令牌

军事调令、入场凭证

认证时代

计算机

Access Token

访问令牌

登录、API 调用

量化时代

AI

词元

词元

模型计费、上下文长度

  • 现代 CPU 的速度远远超过内存访问速度,所以需要 Cache 来提升性能——这个逻辑与 Token 的演变无关,但说明技术术语总是随需求而变。

  • Token 的每一次含义转变,都对应一次技术范式的跃迁:从物理信物到数字钥匙,再到语义砖块。

  • 翻译也随之调整:从“令牌”到“词元”,精准反映了本质变化。

当你在文档中看到“上下文 128K 词元”时,你不仅知道这是 128K 个最小语义单元,更知道这个词背后站着虎符、访问令牌和大模型的分词器。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐