West Point Arabic Speech数据集介绍,官网编号LDC2002S02
·
West Point Arabic Speech(常称 West Point Arabic Speech Corpus,LDC 目录编号 LDC2002S06)是 LDC 发布的现代标准阿拉伯语(MSA)语音识别专用语料库,由美国西点军校主导构建,核心用于阿拉伯语语音识别模型训练、声学建模与方言适配研究,是早期 MSA 语音资源的标杆。以下是详细介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 数据集名称 | West Point Arabic Speech Corpus(LDC2002S06) |
| 构建机构 | 美国西点军校、LDC(Linguistic Data Consortium) |
| 发布时间 | 2002 年 |
| 数据规模 | 约 8400 个语音文件(约 10 小时),含 7200 个母语者录音、1200 个非母语者录音,覆盖 1131 个不同阿拉伯语单词 |
| 语言 | 现代标准阿拉伯语(MSA),含完整变音标注 |
| 数据格式 | WAV 音频(16kHz 采样,16 位单声道),配套 HTK 格式词级 / 单音素级标注、文本脚本与元数据 |
| 获取方式 | LDC 订阅获取,遵守 LDC 数据使用协议,面向科研与非商业用途 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)