Arabic Gigaword数据集介绍，官网编号LDC2003T12

2401_82807501

429人浏览 · 2026-01-09 10:45:21

2401_82807501 · 2026-01-09 10:45:21 发布

Arabic Gigaword 是 LDC 发布的大规模现代标准阿拉伯语（MSA）新闻语料库，核心用于语言模型预训练、机器翻译、文本分类等 NLP 任务，有两个主要版本，第五版（LDC2011T11）为较新且常用版本。以下是详细介绍：

核心定位与背景

由 Linguistic Data Consortium（LDC）整理分发，聚焦 MSA 新闻文本，是阿拉伯语 NLP 领域的重要基准语料，支撑机器翻译、语言模型训练等任务的研发与评测。
第五版（LDC2011T11）发布于 2011 年，基于多源阿拉伯语新闻媒体构建，适配大规模数据驱动的 NLP 模型训练需求，为阿拉伯语处理提供高质量单语数据支撑。

数据规模与构成

文本来源：聚合法新社（AFP）、安纳哈通讯社（An-Nahar）等知名阿拉伯语新闻机构的报道，覆盖政治、经济、文化等多领域，以 MSA 为主，风格正式、规范。
数据体量：第五版含约数千万条新闻文本，总词数达数十亿级，文档与词汇覆盖度高，为模型提供丰富的语言知识与语义信息。
元数据标注：每条文本标注有来源、发布时间、文档 ID 等元数据，便于按领域、时间筛选数据，适配不同任务场景。

版本差异

版本	发布时间	规模	特点
第一版	早期发布	约 125 万篇文档	基础新闻语料，奠定数据基础
第五版（LDC2011T11）	2011 年	约 1300 万篇文档	规模大幅扩充，标注更完善，适配现代 NLP 需求

技术规格

项目	详情
文本格式	UTF-8 编码，XML 格式存储，包含原文与元数据标签
语言类型	现代标准阿拉伯语（MSA），无大量方言内容
数据划分	无官方固定划分，用户可自行按任务需求切分训练集、开发集、测试集
交付形式	压缩包，含文本文件与元数据文件，适配主流 NLP 数据处理流程

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

我的创作纪念日

AtomGit开源社区

cover

【办公提效利器】 OpenClaw v2.7.9 Windows 端完整安装指南（包含安装包）

AtomGit开源社区

cover

普通人怎么用AI？这5个技巧让效率翻倍

AtomGit开源社区

所有评论(0)

查看更多评论

2401_82807501

已为社区贡献27条内容