TIDES Extraction (ACE) 2003 Multilingual Training Data数据集介绍,官网编号LDC2004T09
·
TIDES Extraction (ACE) 2003 Multilingual Training Data(常称 ACE 2003 多语言训练数据,LDC 编号 LDC2003E14、LDC2003E15、LDC2003E16)是 LDC 为 DARPA TIDES 与 ACE 评测打造的多语言信息抽取基准数据集,覆盖英、中、阿 3 种语言,含实体、关系、事件等核心标注,适配跨语言信息抽取、命名实体识别(NER)、关系抽取、事件抽取等 NLP 任务,是早期多语言信息抽取研究的核心资源。以下是详细介绍:
基本信息
| 项目 | 详情 |
|---|---|
| 发布机构 | 美国语言数据联盟(LDC),受 DARPA TIDES 项目资助 |
| 发布时间 | 2003 年 |
| 数据集编号 | 英文 LDC2003E14、中文 LDC2003E15、阿拉伯语 LDC2003E16 |
| 数据规模 | 每语言约 30 万词,涵盖新闻专线、广播新闻、网络文本等 |
| 文本类型 | 现代标准英语、中文(新华社 / 香港新闻)、阿拉伯语新闻与评论 |
| 标注体系 | ACE 2003 标注规范,含实体(EDT)、关系(RDC)、事件(EDC)3 类核心任务标注 |
| 应用场景 | 多语言信息抽取、NER、关系抽取、事件抽取、跨语言模型预训练 |
| 配套资源 | 标注指南、数据拆分文件、标注一致性报告、工具脚本 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)