Iraqi Arabic Conversational Telephone Speech & Transcripts数据集介绍,官网编号LDC2006S45、LDC2006T16
·
Iraqi Arabic Conversational Telephone Speech & Transcripts(核心 LDC 编号 LDC2006S45,配套文本转录 LDC2006T16)是 LDC 于 2006 年发布的伊拉克阿拉伯语电话会话语料库,由 Appen 采集标注,核心用于伊拉克阿拉伯语方言的 ASR、说话人识别、口语理解与机器翻译模型训练,包含约 25 小时真实电话会话语音及逐句转录文本,适配电话信道下的方言语音技术研发与评测。
核心基础信息
| 项目 | 详情 |
|---|---|
| 核心 LDC 编号 | LDC2006S45(语音)、LDC2006T16(文本转录) |
| 发布机构 | LDC(分发)、Appen(采集与标注) |
| 发布时间 | 2006 年 |
| 语种 | 伊拉克阿拉伯语(含巴格达、巴士拉等地区方言变体) |
| 数据类型 | 电话会话语音、逐句转录文本、元数据 |
| 核心用途 | 伊拉克阿拉伯语 ASR 训练 / 测试、说话人识别、方言建模、口语理解、机器翻译 |
| 格式 | 音频(WAV,8kHz 16 位单声道,电话带宽)、文本(UTF - 8)、标注文件 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)