RT-03 MDE Training Data Text and Annotations数据集介绍,官网编号LDC2004T12
·
RT-03 MDE Training Data Text and Annotations(RT-03 MDE 文本与标注训练数据,LDC2003S08、LDC2003T15)是 LDC 为 DARPA RT-03 评测构建的口语元数据抽取(MDE)训练资源,含广播新闻(BN)与电话会话(CTS)的文本及多层标注,适配口语边界检测、填充词识别、说话人角色标注等语音与 NLP 交叉任务,是早期口语处理基准数据集。以下是详细介绍:
基本信息
| 项目 | 详情 |
|---|---|
| 发布机构 | 美国语言数据联盟(LDC),受 DARPA EARS/RT 项目资助 |
| 发布时间 | 2003 年 |
| 数据集编号 | 语音数据 LDC2003S08,文本与标注 LDC2003T15 |
| 数据规模 | 约 60 小时语音对应文本,含 BN 约 20 小时、CTS 约 40 小时,覆盖英语等语言 |
| 文本类型 | 英语广播新闻(VOA、CNN 等)、英语电话会话(日常闲聊、事务沟通) |
| 标注体系 | RT-03 MDE 标注规范,含 6 类核心任务标注(句边界、子句边界、填充词等) |
| 应用场景 | 口语元数据抽取、说话人角色标注、ASR 后处理、口语句法分析、会话结构建模 |
| 配套资源 | 标注指南、数据拆分文件、标注一致性报告、RT-03 评测脚本 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)