CSLU: Multilanguage Telephone Speech Version 1.2数据集介绍,官网编号LDC2006S35
·
CSLU: Multilanguage Telephone Speech Version 1.2 是由美国俄勒冈健康与科学大学口语理解中心(CSLU)构建、LDC 于 2006 年发布的多语种电话语音数据集(编号 LDC2006S35),核心用于多语种电话语音识别(ASR)、语言识别与鲁棒性算法研发,数据源自真实电话信道,覆盖 21 种语言,适配低资源语种语音技术冷启动与跨语种模型训练。
核心基础信息
| 项目 | 详情 |
|---|---|
| 官网编号 | LDC2006S35 |
| 发布机构 | CSLU(构建)、LDC(发布 / 分发) |
| 发布时间 | 2006 年 |
| 语种 | 21 种:阿拉伯语(东部)、粤语、捷克语、波斯语、德语、印地语、匈牙利语、日语、韩语、马来语、普通话、意大利语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、斯瓦希里语、泰米尔语、越南语、英语 |
| 数据类型 | 电话语音、文本转录、标注元数据 |
| 核心用途 | 多语种 ASR 训练 / 测试、语言识别、电话信道鲁棒性研究 |
| 格式 | 音频(SPHERE/RIFF-WAV,8kHz 16 位单声道)、文本(UTF-8 转录文件)、XML 元数据 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)