ACE 2005 Multilingual Training Corpus数据集介绍,官网编号LDC2006T06
·
ACE 2005 Multilingual Training Corpus(LDC2006T06)是 LDC 发布于 2006 年的多语言信息抽取基准数据集,为 ACE 2005 技术评测提供英、阿、中三语训练数据,核心用于实体、关系、事件的标注与模型训练,是信息抽取领域经典资源。以下从核心信息、内容构成、标注体系、应用价值与局限展开说明。
一、核心基础信息
| 信息类别 | 详情 |
|---|---|
| 数据集全称 | ACE 2005 Multilingual Training Corpus |
| 官网编号 | LDC2006T06 |
| 发布机构 | 美国语言数据联盟(LDC) |
| 发布时间 | 2006 年 |
| 开发背景 | Automatic Content Extraction(ACE)项目(1999-2008),由 NIST 主导 |
| 语言覆盖 | 英语、阿拉伯语、汉语 |
| 文本类型 | 新闻专线、广播新闻、广播对话、博客、论坛、电话会话转录等 |
| 核心用途 | 实体识别、关系抽取、事件抽取等信息抽取任务的模型训练与评测 |
| ISBN | 1-58563-376-3 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)