The AQUAINT Corpus of English News Text(AQUAINT 英语新闻文本语料库,LDC2002T31)是由美国国家标准与技术研究院(NIST)资助、语言数据联盟(LDC)发布的大规模英语新闻专线语料库,核心用于信息检索、文本摘要、NLP 模型预训练与评测,是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详细介绍。


一、核心定位与背景

  • 定义:面向信息检索与文本摘要的大规模单语新闻语料,聚合三大权威新闻机构专线文本,提供标准化 SGML 标注,支撑 NLP 模型的训练、评测与基准对比。
  • 背景:源于 NIST 的 AQUAINT 项目,旨在推动大规模文本检索与摘要技术的客观评估,弥补早期新闻语料规模不足、标注不统一的缺陷,成为 2000 年代后新闻 NLP 研究的核心基础设施。

二、规模与核心参数

项目 详情
发布方 LDC(LDC2002T31),NIST 资助
发布时间 2002 年 9 月 26 日
文本规模 约 3.75 亿词,1,033,461 篇新闻故事
来源机构 美联社(AP Worldstream)、纽约时报新闻社(NYT)、新华社(Xinhua)英语专线
时间跨度 1996—2000 年
格式 SGML 标记,gzip 压缩
语种 英语
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐