RT-03 MDE Training Data Speech数据集介绍,官网编号LDC2004S08
·
RT-03 MDE Training Data Speech(LDC2004S08)是 LDC 为 DARPA EARS 计划 RT-03 评测发布的广播新闻语音元数据提取(MDE)训练集,含约 20 小时标注音频与文本,适配句边界、填充词、说话人分割等 MDE 任务,是英文广播新闻语音元数据建模的核心基准资源。以下是详细介绍:
基本信息
| 项目 | 详情 |
|---|---|
| 发布机构 | 美国语言数据联盟(LDC) |
| 发布时间 | 2004 年 4 月 15 日 |
| 数据集编号 | LDC2004S08 |
| 数据规模 | 约 20 小时广播新闻音频,对应完整人工转写文本 |
| 采集来源 | 美国主流广播 / 电视新闻(如 ABC、NBC、CNN、VOA 等) |
| 信号规格 | 单声道,16 位,16 kHz(广播新闻标准采样) |
| 标注类型 | 句边界(SU)、填充词、修正不流畅、说话人 ID、时间戳 |
| 应用场景 | 元数据提取、自动标点、说话人分割、语音转写后处理、语言建模 |
| 配套资源 | 含 RT-03 MDE 测试集(LDC2004S09)与评估脚本 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)