RT-04 MDE Training Data Speech数据集介绍,官网编号LDC2005S16
·
RT-04 MDE Training Data Speech(LDC2005S16,RT-04 MDE Training Data V1.2)是 LDC 为 DARPA EARS 项目 RT-04(Rich Transcription 2004)MDE(Meeting/Diarization/Extraction)任务构建的英文电话语音训练数据集,核心为 40 小时会话语音与配套 MDE 标注,适配说话人分簇、会话结构解析等技术研发。以下从核心信息、数据构成、标注特性、应用与获取等方面展开介绍:
一、核心基础信息
| 属性 | 详情 |
|---|---|
| 数据集名称 | RT-04 MDE Training Data Speech(RT-04 MDE Training Data V1.2) |
| LDC 编号 | LDC2005S16 |
| 开发机构 | 美国语言数据联盟(LDC) |
| 发布时间 | 2005 年 |
| 数据规模 | 396 个会话电话语音文件,约 40 小时英文对话语音 |
| 数据来源 | 源自 Switchboard(ISIP)英文电话会话语料库,覆盖真实电话信道特性 |
| 适配任务 | RT-04 MDE 评估中的说话人分簇、言语单元检测(SUBD)、主题分割等任务 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)