Arabic Gigaword Second Edition(LDC2006T02)是 LDC 于 2006 年发布的大规模阿拉伯语新闻专线文本语料库,核心用于统计机器翻译、语言模型预训练、信息检索与抽取等 NLP 任务,是早期阿拉伯语大语言数据的核心基准资源,规模达 15 亿词级,覆盖多权威新闻源与跨年度时序数据。

核心基础信息

项目 详情
核心 LDC 编号 LDC2006T02
发布机构 LDC(宾夕法尼亚大学语言数据联盟)
发布时间 2006 年
语种 现代标准阿拉伯语(MSA)为主,含少量阿拉伯语方言表达
数据类型 新闻专线文本、元数据、文档级标注
核心用途 机器翻译、语言模型预训练、信息检索、命名实体识别、文本分类
格式 UTF-8 文本、XML 标注文件、文档元数据
数据规模 超 1.5 亿词(约 1500M words),覆盖 1994-2005 年新闻
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐