大模型底座的技术路线

猿类崛起@

346人浏览 · 2026-05-23 20:35:56

猿类崛起@ · 2026-05-23 20:35:56 发布

主流大模型目前以token为单位处理文本，因其算力效率高、生态成熟。但byte-level/tokenizer-free路线正快速发展，它更端到端、跨语言统一且对噪声文本鲁棒。未来几年，外部接口可能仍用token，内部却将更多采用byte、patch或latent segment等灵活方式。token与byte并非对立，而是效率与端到端性的不同取舍。byte路线已取得显著进展，但仍需验证其对主流生态的替代能力。未来关键在于模型内部如何平衡效率与表达能力。

大模型的底座会怎么变？
——从 Token 到 Byte 的技术路线科普


目前主流大模型仍以 token 为基本处理单位，因为它更省算力、工程生态更成熟；但 byte-level / tokenizer-free 路线正在快速成熟，因为它更端到端、跨语言更统一、对噪声文本更鲁棒。未来几年更可能出现的，不是“token 一夜消失”，而是“外部接口继续使用 token，模型内部越来越多采用 byte、patch 或 latent segment 等更灵活的表示方式”。

目前主流大模型仍以 token 为基本处理单位，因为它更省算力、工程生态更成熟；但 byte-level / tokenizer-free 路线正在快速成熟，因为它更端到端、跨语言更统一、对噪声文本更鲁棒。未来几年更可能出现的，不是“token 一夜消失”，而是“外部接口继续使用 token，模型内部越来越多采用 byte、patch 或 latent segment 等更灵活的表示方式”。

一、为什么大家突然开始讨论 Token 和 Byte？

大语言模型本质上要做一件事：把一串文本变成模型可以计算的离散单位，再根据这些单位去预测下一个单位。问题在于，这个“单位”到底应该是什么？

过去很长一段时间里，主流做法是使用 tokenizer，把文本先切成 token。token 可以是一个词、半个词、常见词片段，甚至是标点和空格。这样做的好处是序列更短，模型算起来更快。

但这套方案也有代价：不同语言切分效果不同，生僻词、错别字、口语化文本、代码片段、混合符号等内容，经常会让 tokenizer 的表现变得不稳定。于是研究者开始追问：能不能不依赖固定词表，直接让模型从更原始的数据里学习？这就引出了 byte 路线。

二、Token 和 Byte，到底有什么区别？

可以把两者想成两种不同的“读文本方式”。


维度	Token 路线	Byte 路线
输入单位	词、子词或常见字符片段	原始字节（UTF-8 bytes）
是否依赖 tokenizer	依赖	不依赖或弱依赖
序列长度	通常更短	通常更长
训练与推理成本	更友好	更吃算力
对拼写噪声/错别字的鲁棒性	一般	通常更强
跨语言一致性	受词表设计影响	天然更统一
工程生态	成熟	仍在快速演进

打个比方：token 像是把一句话先切成几个“现成的语言积木”，再交给模型；byte 则更像是不预切块，直接把最原始的材料交给模型，让它自己学出哪些组合有意义。

注意：不同模型的 tokenizer 不同，所以同一句中文在不同模型中的 token 切分方式也会不同。文章中的 token 示例属于“解释性示意”，不是特定商用模型的精确输出。

三、一个通俗案例：同一句中文，模型“看到”的东西不一样

假设原句是：“今天天气不错”。

在 token 路线里，模型通常先看到类似“今天 / 天气 / 不错”这样的片段；随后这些片段会被映射成一串 token ID，再送入模型。

在 byte 路线里，模型不会先问“这是不是一个词”，而是直接处理底层 UTF-8 字节。一个中文字符通常对应多个字节，因此同一句话在 byte 视角下会变得更长。


视角	模型可能接收到的形式（示意）
Token	“今天 / 天气 / 不错” → token ID 序列
Byte	“今”“天”“天”“气”“不”“错”先编码为 UTF-8 bytes → byte ID 序列

这意味着什么？同一句话，用 token 处理时更短、更省；用 byte 处理时更长、更原始。token 赢在效率，byte 赢在统一性和端到端潜力。

四、真实研究进展：Byte 路线不是空想，已经走了四步

ByT5（2021）

Google 研究团队提出 ByT5，证明标准 Transformer 经过少量修改后，也能直接处理 byte 序列。论文同时指出，byte-level 模型在噪声文本、拼写敏感任务上有优势。

MEGABYTE（2023）

研究者用多尺度结构把超长 byte 序列切成 patch，在 patch 内局部建模、patch 间全局建模，把“直接处理原始字节”推进到百万字节级别。

MambaByte（2024）

这项工作表明，byte 路线不一定只能依赖 Transformer，也可以与状态空间模型（SSM/Mamba）结合，以更有效地处理长序列。论文报告了通过 speculative decoding 获得约 2.6 倍推理加速。

BLT：Byte Latent Transformer（2024）

Meta 等研究者提出 BLT，用动态 patching 把 bytes 聚合成更高效的计算单元。论文声称：在较大规模上，byte-level 架构首次能够匹配基于 token 的 LLM 表现，并在效率与鲁棒性上取得改进。

五、既然 Byte 这么有潜力，为什么主流产品还在用 Token？

因为产业世界首先考虑的是“可用、可扩展、可计费”。截至 2026 年 5 月，OpenAI 官方仍明确说明其大模型使用 token 处理文本；Google 的 Gemini API 文档写明输入输出都会被 tokenized；Anthropic 也提供正式的 token counting 能力。这说明主流商业生态、上下文窗口、计费方式和开发工具链，今天仍然主要建立在 token 之上。

·第一，token 序列更短，训练和推理成本通常更低。

·第二，token 的缓存、计费、上下文管理已经形成成熟工程体系。

·第三，开发者理解 token 成本更直观，提示词长度、API 使用和预算控制都更方便。

·第四，byte 路线虽然进步很快，但在大规模商用部署、工具链兼容和长期稳定性上仍在继续验证。