分词：大模型理解语言的“第一道入口”，一文掌握词级、字符级、子词级分词全解析！

猿类崛起@

292人浏览 · 2026-05-15 10:49:51

猿类崛起@ · 2026-05-15 10:49:51 发布

本文系统介绍了NLP文本预处理中的核心环节——分词，详细拆解了英文和中文两大语言体系的分词方式。内容涵盖了词级、字符级、子词级三类分词的原理与区别，并分析了各自优缺点。同时，还探讨了常见子词分词算法如BPE、WordPiece和Unigram Language Model，以及中文分词在主流大模型中的应用，帮助读者从零建立完整的分词知识框架。

分词 Tokenization 是大模型理解人类语言的第一道入口，也是 NLP 文本预处理的核心环节。本文从分词基础概念出发，分别拆解英文、中文两大语言体系，系统梳理词级、字符级、子词级三类分词方式的原理与区别，帮你从零建立完整的分词知识框架。

Part1 分词概述

文本需要经过预处理才可以输入模型进行处理，过程如下图所示：

分词（Tokenization）是将原始文本切分为若干具有独立语义的最小单元（即词元，token）的过程。

词表（Vocabulary）是由语料库构建出的、包含模型可识别token 的集合。词表中每个token都分配有唯一的 ID，并支持 token 与 ID 之间的双向映射。

构建词汇表的过程：首先将训练集中的全部文本分词成独立的词元，然后将这些词元按宝母顺序进行排列，并删除重复的词元:接下来将唯一的词元聚合到一张词汇表史。该词汇表定义了每个唯一的词元到唯一的整数值的映射。

Part2 英文分词

按照分词粒度的大小，可分为词级（Word-Level）分词、字符级（Character-Level）分词和子词级（Subword‑Level）分词。

词级分词

词级分词是指将文本按词语进行切分，是最传统、最直观的分词方式。在英文中，空格和标点往往是天然的分隔符。

优点：便于理解和实现

缺点：

容易出现 OOV（Out Of Vocabulary，未登录词）问题。所谓 OOV，是指在模型使用阶段，输入文本中出现了不在预先构建词表中的词语，常见的包括网络热词、专有名词、复合词及拼写变体等。由于模型无法识别这些词，通常会将其统一替换为特殊标记（如），从而导致语义信息的丢失，影响模型的理解与预测能力。
词表由于长尾效应会非常大，包含很多稀有词，存储训练成本高，且稀有词很难学好。
同一个词不同形态，语义相近，会被当做不同词。

字符级分词

字符级分词（Character-level Tokenization）是以单个字符为最小单位进行分词的方法，文本中的每一个字母、数字、标点甚至空格，都会被视作一个独立的 token。

优点：词表仅由所有可能出现的字符组成，因此词表规模非常小，覆盖率极高，几乎不存在 OOV（Out-of-Vocabulary）问题。无论输入中出现什么样的新词或拼写变体，只要字符在词表中，都能被表示出来。

缺点：单个字符本身语义信息极弱，模型必须依赖更长的上下文来推断词义和结构，这显著增加了建模难度和训练成本。此外，输入序列也会变得更长，影响模型效率。

子词级分词

子词级分词是一种介于词级分词与字符级分词之间的分词方法，它将词语切分为更小的单元——子词（subword），例如词根、前缀、后缀或常见词片段。

优点：与词级分词相比，子词分词可以显著缓解OOV问题；与字符级分词相比，它能更好地保留一定的语义结构。

常见子词分词算法：

BPE（Byte Pair Encoding）
WordPiece
Unigram Language Model

Part3 中文分词

字符级分词

将文本按照单个汉字进行切分，文本中的每一个汉字都被视为一个独立的 token。

优点：汉字本身通常具有独立语义，因此字符级分词在中文中具备天然的可行性。相比英文中的字符分词，中文的字符分词更加“语义友好”。

词级分词

词级分词是将中文文本按照完整词语进行切分的传统方法，切分结果更贴近人类阅读习惯。

由于中文没有空格等天然词边界，词级分词通常依赖词典、规则或模型来识别词语边界。

子词级分词

虽然中文没有英文中的子词结构（如前缀、后缀、词根等），但子词分词算法（如 BPE）仍可直接应用于中文。它们以汉字为基本单位，通过学习语料中高频的字组合（如“自然”、“语言”、“处理”），自动构建子词词表。这种方式无需人工词典，具有较强的适应能力。

在当前主流的中文大模型（如通义千问、DeepSeek）中，子词分词已成为广泛采用的文本切分策略。

2026年AI行业最大的机会，毫无疑问就在应用层！

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%，年薪破百万！

腾讯、京东、百度开放招聘技术岗，80%与AI相关……

如今，超过60%的企业都在推进AI产品落地，而真正能交付项目的 大模型应用开发工程师 **，**却极度稀缺！

落地AI应用绝对不是写几个prompt，调几个API就能搞定的，企业真正需要的，是能搞定这三项核心能力的人：

✅RAG：融入外部信息，修正模型输出，给模型装靠谱大脑

✅Agent智能体：让AI自主干活，通过工具调用（Tools）环境交互，多步推理完成复杂任务。比如做智能客服等等……

✅微调：针对特定任务优化，让模型适配业务

目前，脉脉上有超过1000家企业发布大模型相关岗位，人工智能岗平均月薪7.8w！实习生日薪高达4000！远超其他行业收入水平！

技术的稀缺性，才是你「值钱」的关键！

具备AI能力的程序员，比传统开发高出不止一截！有的人早就转行AI方向，拿到百万年薪！👇🏻👇🏻

AI浪潮，正在重构程序员的核心竞争力！现在入场，仍是最佳时机！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景，用实战经验落地AI技术。从GPT到最火的开源模型，让你从容面对AI技术革新！

大模型微调

掌握主流大模型（如DeepSeek、Qwen等）的微调技术，针对特定场景优化模型性能。
学习如何利用领域数据（如制造、医药、金融等）进行模型定制，提升任务准确性和效率。

RAG应用开发

深入理解检索增强生成（Retrieval-Augmented Generation, RAG）技术，构建高效的知识检索与生成系统。
应用于垂类场景（如法律文档分析、医疗诊断辅助、金融报告生成等），实现精准信息提取与内容生成。

AI Agent智能体搭建

学习如何设计和开发AI Agent，实现多任务协同、自主决策和复杂问题解决。
构建垂类场景下的智能助手（如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等）。

如果你也有以下诉求：

快速链接产品/业务团队，参与前沿项目

构建技术壁垒，从竞争者中脱颖而出

避开35岁裁员危险期，顺利拿下高薪岗

迭代技术水平，延长未来20年的新职业发展！

……

那这节课你一定要来听！

因为，留给普通程序员的时间真的不多了！

立即扫码，即可免费预约

「AI技术原理 + 实战应用 + 职业发展」

「大模型应用开发实战公开课」

👇👇

在这里插入图片描述

👍🏻还有靠谱的内推机会+直聘权益！！

完课后赠送：大模型应用案例集、AI商业落地白皮书

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年AI PPT工具体验：6款主流工具深度横评

AtomGit开源社区

《AI智能体视觉初级教程》

针对“AI智能体视觉(TVA)初级课程大纲与内容设计”这一问题，其核心是构建一个面向零基础或初学者、系统介绍智能体如何通过视觉感知环境并做出决策的入门课程。课程设计需从到，建立完整的知识闭环，为后续的中级和高级课程（如VLMs与具身智能融合）打下坚实基础。本课程旨在为学员奠定AI智能体视觉领域的核心基础。通过理论结合实践，学员将理解视觉感知的基本原理，掌握让智能体“看懂”世界并做出决策的基本方法，

AtomGit开源社区

HRM-Text 技术解析：一个把“高阶推理”做进预训练框架的 1B 级文本模型仓库

HRM-Text技术解析：1B级文本模型的创新训练框架 HRM-Text是一个专注于高效预训练的文本模型框架，其核心创新在于将高阶推理能力直接融入预训练过程。该框架采用分层递归的HRM模型结构，包含高层推理模块和低层细化模块的双层设计，通过多轮内部计算实现深度推理。技术亮点包括：独特的训练机制：采用逐步增加反向传播路径的warmup策略，前期保证训练稳定，后期开启深度递归优化的PrefixLM