Iraqi Arabic Conversational Telephone Speech & Transcripts(核心 LDC 编号 LDC2006S45,配套文本转录 LDC2006T16)是 LDC 于 2006 年发布的伊拉克阿拉伯语电话会话语料库,由 Appen 采集标注,核心用于伊拉克阿拉伯语方言的 ASR、说话人识别、口语理解与机器翻译模型训练,包含约 25 小时真实电话会话语音及逐句转录文本,适配电话信道下的方言语音技术研发与评测。

核心基础信息

项目 详情
核心 LDC 编号 LDC2006S45(语音)、LDC2006T16(文本转录)
发布机构 LDC(分发)、Appen(采集与标注)
发布时间 2006 年
语种 伊拉克阿拉伯语(含巴格达、巴士拉等地区方言变体)
数据类型 电话会话语音、逐句转录文本、元数据
核心用途 伊拉克阿拉伯语 ASR 训练 / 测试、说话人识别、方言建模、口语理解、机器翻译
格式 音频(WAV,8kHz 16 位单声道,电话带宽)、文本(UTF - 8)、标注文件

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐