ACE 2005 Multilingual Training Corpus(LDC2006T06)是 LDC 发布于 2006 年的多语言信息抽取基准数据集,为 ACE 2005 技术评测提供英、阿、中三语训练数据,核心用于实体、关系、事件的标注与模型训练,是信息抽取领域经典资源。以下从核心信息、内容构成、标注体系、应用价值与局限展开说明。

一、核心基础信息

信息类别 详情
数据集全称 ACE 2005 Multilingual Training Corpus
官网编号 LDC2006T06
发布机构 美国语言数据联盟(LDC)
发布时间 2006 年
开发背景 Automatic Content Extraction(ACE)项目(1999-2008),由 NIST 主导
语言覆盖 英语、阿拉伯语、汉语
文本类型 新闻专线、广播新闻、广播对话、博客、论坛、电话会话转录等
核心用途 实体识别、关系抽取、事件抽取等信息抽取任务的模型训练与评测
ISBN 1-58563-376-3

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐