Arabic Gigaword Second Edition数据集介绍,官网编号LDC2006T02
·
Arabic Gigaword Second Edition(LDC2006T02)是 LDC 于 2006 年发布的大规模阿拉伯语新闻专线文本语料库,核心用于统计机器翻译、语言模型预训练、信息检索与抽取等 NLP 任务,是早期阿拉伯语大语言数据的核心基准资源,规模达 15 亿词级,覆盖多权威新闻源与跨年度时序数据。
核心基础信息
| 项目 | 详情 |
|---|---|
| 核心 LDC 编号 | LDC2006T02 |
| 发布机构 | LDC(宾夕法尼亚大学语言数据联盟) |
| 发布时间 | 2006 年 |
| 语种 | 现代标准阿拉伯语(MSA)为主,含少量阿拉伯语方言表达 |
| 数据类型 | 新闻专线文本、元数据、文档级标注 |
| 核心用途 | 机器翻译、语言模型预训练、信息检索、命名实体识别、文本分类 |
| 格式 | UTF-8 文本、XML 标注文件、文档元数据 |
| 数据规模 | 超 1.5 亿词(约 1500M words),覆盖 1994-2005 年新闻 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)