TDT5 Topics and Annotations(LDC2006T19)是 LDC 于 2006 年发布的TDT5 任务配套标注数据集,与 TDT5 Multilingual Text(LDC2006T18)搭配使用,为 2004 年 NIST TDT 评测提供话题定义、标准标注与评测基准,核心用于话题检测、跟踪、关联等任务的算法评估与模型训练,是 TDT 领域关键的标注资源。以下从核心信息、内容构成、标注体系、应用价值与局限展开说明。

基础信息

信息类别 详情
数据集全称 TDT5 Topics and Annotations
官网编号 LDC2006T19
发布机构 美国语言数据联盟(LDC)
发布时间 2006 年
配套数据集 TDT5 Multilingual Text(LDC2006T18)
语种覆盖 英文、阿拉伯文、中文
标注规模 含 407,503 条新闻报道的话题标注,含 1,000 + 个话题定义与事件关联标注
核心用途 TDT 算法评测、话题标注数据训练、跨语言话题关联研究
ISBN 1-58563-418-2
数据格式 XML,含话题元数据、标注结果与评测脚本,配套标注规范文档
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐