RT-03 MDE Training Data Speech(LDC2004S08)是 LDC 为 DARPA EARS 计划 RT-03 评测发布的广播新闻语音元数据提取(MDE)训练集,含约 20 小时标注音频与文本,适配句边界、填充词、说话人分割等 MDE 任务,是英文广播新闻语音元数据建模的核心基准资源。以下是详细介绍:


基本信息

项目 详情
发布机构 美国语言数据联盟(LDC)
发布时间 2004 年 4 月 15 日
数据集编号 LDC2004S08
数据规模 约 20 小时广播新闻音频,对应完整人工转写文本
采集来源 美国主流广播 / 电视新闻(如 ABC、NBC、CNN、VOA 等)
信号规格 单声道,16 位,16 kHz(广播新闻标准采样)
标注类型 句边界(SU)、填充词、修正不流畅、说话人 ID、时间戳
应用场景 元数据提取、自动标点、说话人分割、语音转写后处理、语言建模
配套资源 含 RT-03 MDE 测试集(LDC2004S09)与评估脚本

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐