RT-03 MDE Training Data Text and Annotations(RT-03 MDE 文本与标注训练数据,LDC2003S08、LDC2003T15)是 LDC 为 DARPA RT-03 评测构建的口语元数据抽取(MDE)训练资源,含广播新闻(BN)与电话会话(CTS)的文本及多层标注,适配口语边界检测、填充词识别、说话人角色标注等语音与 NLP 交叉任务,是早期口语处理基准数据集。以下是详细介绍:


基本信息

项目 详情
发布机构 美国语言数据联盟(LDC),受 DARPA EARS/RT 项目资助
发布时间 2003 年
数据集编号 语音数据 LDC2003S08,文本与标注 LDC2003T15
数据规模 约 60 小时语音对应文本,含 BN 约 20 小时、CTS 约 40 小时,覆盖英语等语言
文本类型 英语广播新闻(VOA、CNN 等)、英语电话会话(日常闲聊、事务沟通)
标注体系 RT-03 MDE 标注规范,含 6 类核心任务标注(句边界、子句边界、填充词等)
应用场景 口语元数据抽取、说话人角色标注、ASR 后处理、口语句法分析、会话结构建模
配套资源 标注指南、数据拆分文件、标注一致性报告、RT-03 评测脚本
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐