Spanish Gigaword Second Edition数据集介绍,官网编号LDC2009T21
·
LDC2009T21(Spanish Gigaword Second Edition)是 LDC 于 2009 年发布的大规模西班牙语新闻专线文本语料库,是西班牙语 Gigaword 系列的第二版,核心用于语言模型预训练、文本分类、信息提取与机器翻译等 NLP 任务,为西班牙语自然语言处理研究提供高质量大规模单语数据支撑。以下是详细介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 发布机构 | Linguistic Data Consortium(LDC) |
| 发布日期 | 2009 年 12 月 |
| 语种 | 西班牙语(标准书面语) |
| 数据来源 | 西班牙、拉丁美洲主流新闻专线(如 EFE、El País 等),含新闻、评论、特写等体裁 |
| 数据规模 | 约 17.5 亿词,覆盖 1994-2008 年,含 150 万 + 文档,按年份与来源组织 |
| 标注情况 | 无深层句法 / 语义标注,仅含元数据(来源、日期、文档 ID 等),保留原始新闻结构 |
| 应用场景 | 西班牙语语言模型预训练、统计机器翻译(SMT)单语侧训练、信息检索 / 提取、文本摘要、命名实体识别(NER)与词性标注(POS)模型训练 |
| 版权信息 | LDC 版权,遵循 LDC 用户协议,仅限授权用户使用 |
| 版本关联 | 基于第一版扩充数据规模与时间跨度,后续更新为 LDC2011T12(第三版) |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)