The AQUAINT Corpus of English News Text数据集介绍，官网编号LDC2002T31

LinguisticData

330人浏览 · 2026-01-08 23:07:12

LinguisticData · 2026-01-08 23:07:12 发布

The AQUAINT Corpus of English News Text（AQUAINT 英语新闻文本语料库，LDC2002T31）是由美国国家标准与技术研究院（NIST）资助、语言数据联盟（LDC）发布的大规模英语新闻专线语料库，核心用于信息检索、文本摘要、NLP 模型预训练与评测，是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详细介绍。

一、核心定位与背景

定义：面向信息检索与文本摘要的大规模单语新闻语料，聚合三大权威新闻机构专线文本，提供标准化 SGML 标注，支撑 NLP 模型的训练、评测与基准对比。
背景：源于 NIST 的 AQUAINT 项目，旨在推动大规模文本检索与摘要技术的客观评估，弥补早期新闻语料规模不足、标注不统一的缺陷，成为 2000 年代后新闻 NLP 研究的核心基础设施。

二、规模与核心参数

项目	详情
发布方	LDC（LDC2002T31），NIST 资助
发布时间	2002 年 9 月 26 日
文本规模	约 3.75 亿词，1,033,461 篇新闻故事
来源机构	美联社（AP Worldstream）、纽约时报新闻社（NYT）、新华社（Xinhua）英语专线
时间跨度	1996—2000 年
格式	SGML 标记，gzip 压缩
语种	英语