Buckwalter Arabic Morphological Analyzer Version 1.0(BAMA 1.0)是 Tim Buckwalter 开发的经典阿拉伯语形态分析工具 / 数据集,核心用于无变音阿拉伯语文本的形态歧义消解、词法分析与词性标注,是阿拉伯语 NLP 早期研究的基础资源,被广泛用于阿拉伯语树库(ATB)构建与形态分析模型训练。以下是详细介绍:

基础信息

项目 详情
资源名称 Buckwalter Arabic Morphological Analyzer Version 1.0(BAMA 1.0)
开发者 Tim Buckwalter(LDC)
发布时间 2002 年(核心版本)
资源类型 规则驱动形态分析器 + 配套词法词典(数据集)
语言 现代标准阿拉伯语(MSA)
数据规模 核心词典含约 12 万词条,覆盖常用词根、词型、词缀组合,支持无变音文本的全形态枚举
数据格式 XML / 文本格式输出,含词形、变音、词根、词元、词性、英文释义等标注;工具为命令行程序
获取方式 LDC 关联资源,可通过 LDC 订阅获取,或随阿拉伯语树库(ATB)等衍生资源分发,遵守数据使用协议

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐