LDC2009T21(Spanish Gigaword Second Edition)是 LDC 于 2009 年发布的大规模西班牙语新闻专线文本语料库,是西班牙语 Gigaword 系列的第二版,核心用于语言模型预训练、文本分类、信息提取与机器翻译等 NLP 任务,为西班牙语自然语言处理研究提供高质量大规模单语数据支撑。以下是详细介绍:

基础信息

项目 详情
发布机构 Linguistic Data Consortium(LDC)
发布日期 2009 年 12 月
语种 西班牙语(标准书面语)
数据来源 西班牙、拉丁美洲主流新闻专线(如 EFE、El País 等),含新闻、评论、特写等体裁
数据规模 约 17.5 亿词,覆盖 1994-2008 年,含 150 万 + 文档,按年份与来源组织
标注情况 无深层句法 / 语义标注,仅含元数据(来源、日期、文档 ID 等),保留原始新闻结构
应用场景 西班牙语语言模型预训练、统计机器翻译(SMT)单语侧训练、信息检索 / 提取、文本摘要、命名实体识别(NER)与词性标注(POS)模型训练
版权信息 LDC 版权,遵循 LDC 用户协议,仅限授权用户使用
版本关联 基于第一版扩充数据规模与时间跨度,后续更新为 LDC2011T12(第三版)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐