TIDES Extraction (ACE) 2003 Multilingual Training Data(常称 ACE 2003 多语言训练数据,LDC 编号 LDC2003E14、LDC2003E15、LDC2003E16)是 LDC 为 DARPA TIDES 与 ACE 评测打造的多语言信息抽取基准数据集,覆盖英、中、阿 3 种语言,含实体、关系、事件等核心标注,适配跨语言信息抽取、命名实体识别(NER)、关系抽取、事件抽取等 NLP 任务,是早期多语言信息抽取研究的核心资源。以下是详细介绍:


基本信息

项目 详情
发布机构 美国语言数据联盟(LDC),受 DARPA TIDES 项目资助
发布时间 2003 年
数据集编号 英文 LDC2003E14、中文 LDC2003E15、阿拉伯语 LDC2003E16
数据规模 每语言约 30 万词,涵盖新闻专线、广播新闻、网络文本等
文本类型 现代标准英语、中文(新华社 / 香港新闻)、阿拉伯语新闻与评论
标注体系 ACE 2003 标注规范,含实体(EDT)、关系(RDC)、事件(EDC)3 类核心任务标注
应用场景 多语言信息抽取、NER、关系抽取、事件抽取、跨语言模型预训练
配套资源 标注指南、数据拆分文件、标注一致性报告、工具脚本
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐