RT-04 MDE Training Data Speech(LDC2005S16,RT-04 MDE Training Data V1.2)是 LDC 为 DARPA EARS 项目 RT-04(Rich Transcription 2004)MDE(Meeting/Diarization/Extraction)任务构建的英文电话语音训练数据集,核心为 40 小时会话语音与配套 MDE 标注,适配说话人分簇、会话结构解析等技术研发。以下从核心信息、数据构成、标注特性、应用与获取等方面展开介绍:


一、核心基础信息

属性 详情
数据集名称 RT-04 MDE Training Data Speech(RT-04 MDE Training Data V1.2)
LDC 编号 LDC2005S16
开发机构 美国语言数据联盟(LDC)
发布时间 2005 年
数据规模 396 个会话电话语音文件,约 40 小时英文对话语音
数据来源 源自 Switchboard(ISIP)英文电话会话语料库,覆盖真实电话信道特性
适配任务 RT-04 MDE 评估中的说话人分簇、言语单元检测(SUBD)、主题分割等任务

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐