HanLP：130种语言的多任务NLP工具包

jixiezi675

61人浏览 · 2026-06-06 16:31:58

jixiezi675 · 2026-06-06 16:31:58 发布

文章目录

HanLP：130种语言的多任务NLP工具包

HanLP：130种语言的多任务NLP工具包

HanLP 在 GitHub 上拿到了 36.3K Star。

这是韩晗（Han He）开发的一个多语言 NLP 库，基于 PyTorch 和 TensorFlow 2.x 构建，面向研究和生产环境。项目自 2018 年起持续迭代，v2.1 版本相关论文发表在 EMNLP 2021 上。

HanLP 的核心思路是把多个 NLP 任务塞进一个 Transformer 模型里联合训练。分词、词形还原、词性标注、词特征提取、依存句法分析、成分句法分析、语义角色标注、语义依存解析、抽象语义表示解析，总共 10 项任务，覆盖 Universal Dependencies 和 OntoNotes 语料库里的 130 种语言。传一句话进去，语法结构、实体关系、语义角色全部标注出来。

正文顶部截图

1、两种接入方式

HanLP 提供了 RESTful API 和原生 Python API 两条路径。

RESTful 客户端包体积极小，几 KB 的量，适合移动端和敏捷开发。申请一个免费 auth key 就能调用，基于 CC BY-NC-SA 4.0 协议。接口设计干净，多语言文本可以混着传，同一句话里包含中英日三种语言，它能自动识别并处理。Python 和 Java 都有对应的客户端封装，几行代码就能跑起来。

原生 Python API 功能更完整。pip install hanlp 装好依赖，hanlp.load() 加载预训练模型就能用。多语言模型之外，中文、英文、日语各有单语模型可用。官方给出的基准测试里，单语模型在分词、NER、句法分析等任务上的精度比多语言模型高出几个百分点，追求精度的话建议优先选单语模型。

README区域截图