The AQUAINT Corpus of English News Text数据集介绍,官网编号LDC2002T31
·
The AQUAINT Corpus of English News Text(AQUAINT 英语新闻文本语料库,LDC2002T31)是由美国国家标准与技术研究院(NIST)资助、语言数据联盟(LDC)发布的大规模英语新闻专线语料库,核心用于信息检索、文本摘要、NLP 模型预训练与评测,是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详细介绍。
一、核心定位与背景
- 定义:面向信息检索与文本摘要的大规模单语新闻语料,聚合三大权威新闻机构专线文本,提供标准化 SGML 标注,支撑 NLP 模型的训练、评测与基准对比。
- 背景:源于 NIST 的 AQUAINT 项目,旨在推动大规模文本检索与摘要技术的客观评估,弥补早期新闻语料规模不足、标注不统一的缺陷,成为 2000 年代后新闻 NLP 研究的核心基础设施。
二、规模与核心参数
| 项目 | 详情 |
|---|---|
| 发布方 | LDC(LDC2002T31),NIST 资助 |
| 发布时间 | 2002 年 9 月 26 日 |
| 文本规模 | 约 3.75 亿词,1,033,461 篇新闻故事 |
| 来源机构 | 美联社(AP Worldstream)、纽约时报新闻社(NYT)、新华社(Xinhua)英语专线 |
| 时间跨度 | 1996—2000 年 |
| 格式 | SGML 标记,gzip 压缩 |
| 语种 | 英语 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)