West Point Arabic Speech(常称 West Point Arabic Speech Corpus,LDC 目录编号 LDC2002S06)是 LDC 发布的现代标准阿拉伯语(MSA)语音识别专用语料库,由美国西点军校主导构建,核心用于阿拉伯语语音识别模型训练、声学建模与方言适配研究,是早期 MSA 语音资源的标杆。以下是详细介绍:

基础信息

项目 详情
数据集名称 West Point Arabic Speech Corpus(LDC2002S06)
构建机构 美国西点军校、LDC(Linguistic Data Consortium)
发布时间 2002 年
数据规模 约 8400 个语音文件(约 10 小时),含 7200 个母语者录音、1200 个非母语者录音,覆盖 1131 个不同阿拉伯语单词
语言 现代标准阿拉伯语(MSA),含完整变音标注
数据格式 WAV 音频(16kHz 采样,16 位单声道),配套 HTK 格式词级 / 单音素级标注、文本脚本与元数据
获取方式 LDC 订阅获取,遵守 LDC 数据使用协议,面向科研与非商业用途
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐