Arabic Gigaword 是 LDC 发布的大规模现代标准阿拉伯语(MSA)新闻语料库,核心用于语言模型预训练、机器翻译、文本分类等 NLP 任务,有两个主要版本,第五版(LDC2011T11)为较新且常用版本。以下是详细介绍:


核心定位与背景

  • 由 Linguistic Data Consortium(LDC)整理分发,聚焦 MSA 新闻文本,是阿拉伯语 NLP 领域的重要基准语料,支撑机器翻译、语言模型训练等任务的研发与评测。
  • 第五版(LDC2011T11)发布于 2011 年,基于多源阿拉伯语新闻媒体构建,适配大规模数据驱动的 NLP 模型训练需求,为阿拉伯语处理提供高质量单语数据支撑。

数据规模与构成

  1. 文本来源:聚合法新社(AFP)、安纳哈通讯社(An-Nahar)等知名阿拉伯语新闻机构的报道,覆盖政治、经济、文化等多领域,以 MSA 为主,风格正式、规范。
  2. 数据体量:第五版含约数千万条新闻文本,总词数达数十亿级,文档与词汇覆盖度高,为模型提供丰富的语言知识与语义信息。
  3. 元数据标注:每条文本标注有来源、发布时间、文档 ID 等元数据,便于按领域、时间筛选数据,适配不同任务场景。
  4. 版本差异
    版本 发布时间 规模 特点
    第一版 早期发布 约 125 万篇文档 基础新闻语料,奠定数据基础
    第五版(LDC2011T11) 2011 年 约 1300 万篇文档 规模大幅扩充,标注更完善,适配现代 NLP 需求

技术规格

项目 详情
文本格式 UTF-8 编码,XML 格式存储,包含原文与元数据标签
语言类型 现代标准阿拉伯语(MSA),无大量方言内容
数据划分 无官方固定划分,用户可自行按任务需求切分训练集、开发集、测试集
交付形式 压缩包,含文本文件与元数据文件,适配主流 NLP 数据处理流程

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐