Buckwalter Arabic Morphological Analyzer Version 1.0数据集介绍,官网编号LDC2002L49
·
Buckwalter Arabic Morphological Analyzer Version 1.0(BAMA 1.0)是 Tim Buckwalter 开发的经典阿拉伯语形态分析工具 / 数据集,核心用于无变音阿拉伯语文本的形态歧义消解、词法分析与词性标注,是阿拉伯语 NLP 早期研究的基础资源,被广泛用于阿拉伯语树库(ATB)构建与形态分析模型训练。以下是详细介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 资源名称 | Buckwalter Arabic Morphological Analyzer Version 1.0(BAMA 1.0) |
| 开发者 | Tim Buckwalter(LDC) |
| 发布时间 | 2002 年(核心版本) |
| 资源类型 | 规则驱动形态分析器 + 配套词法词典(数据集) |
| 语言 | 现代标准阿拉伯语(MSA) |
| 数据规模 | 核心词典含约 12 万词条,覆盖常用词根、词型、词缀组合,支持无变音文本的全形态枚举 |
| 数据格式 | XML / 文本格式输出,含词形、变音、词根、词元、词性、英文释义等标注;工具为命令行程序 |
| 获取方式 | LDC 关联资源,可通过 LDC 订阅获取,或随阿拉伯语树库(ATB)等衍生资源分发,遵守数据使用协议 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)