Switchboard Automatic Identification Database数据集介绍,官网编号LDC2003T10
·
SAID (Switchboard Automatic Identification Database) 数据集,核心为电话信道下的说话人识别 / 确认与语音检索基准语料,用于训练和评测说话人识别、语音检索、话者分割等模型,由 DARPA EARS 项目支持构建。以下是详细介绍:
核心定位与背景
- 全称 Switchboard Automatic Identification Database,聚焦电话场景的说话人自动识别与语音检索任务,适配真实电话信道特性,为语音识别与说话人分析提供标准评测数据。
- 发布于 2003 年,由 Linguistic Data Consortium(LDC)整理分发,支撑 DARPA EARS 等项目的技术研发与评估,是早期电话语音识别与说话人识别领域的重要基准数据。
数据规模与构成
- 语音数据:基于 Switchboard 电话对话语料扩展,含大量电话信道采集的双工对话语音,覆盖多样说话人、口音与环境,采样率 8kHz、单声道,符合电话语音标准格式。
- 说话人信息:涵盖多性别、多年龄段、多地域口音的美国英语母语者,标注有说话人 ID、性别、会话 ID 等元数据,便于区分不同说话人并构建识别任务。
- 标注内容:包含文本转录、时间戳、说话人分割标注,支持说话人识别、语音检索、话者分割等任务的训练与评估,标注准确率经严格校验。
- 数据划分:提供训练集、开发集与测试集,适配模型训练、参数调优与性能评估的全流程需求。
技术规格
| 项目 | 详情 |
|---|---|
| 音频格式 | 8kHz 采样率,单声道,μ-law PCM 编码,符合电话语音标准 |
| 标注信息 | 文本转录、时间戳、说话人 ID、性别、会话 ID 等 |
| 数据来源 | Switchboard 电话对话语料扩展,覆盖日常对话场景 |
| 交付形式 | 音频文件(如.sph)+ 标注文件(如.trn、.stm) |
| 适用任务 | 说话人识别 / 确认、语音检索、话者分割、电话语音 ASR 等 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)