1997 HUB5 Arabic Transcripts数据集介绍,官网编号LDC2002T39
·
1997 HUB5 Arabic Transcripts(1997 HUB5 阿拉伯语对话转录数据集,LDC2002S22)是 DARPA 资助、LDC 发布的阿拉伯语电话对话转录语料,为 1997 年 NIST Hub - 5NE 非英语会话语音识别评测的核心数据,专注埃及阿拉伯口语(ECA),用于阿拉伯语语音识别、口语处理与模型基准评测。以下从核心定位、关键参数、标注规范、获取与应用等方面详细介绍。
一、核心定位与背景
- 定义:基于 CALLHOME 埃及阿拉伯语电话对话构建的参考转录集,含 20 段完整对话的人工转录文本,配套说话人轮次、时间戳与发音标注,适配电话场景下阿拉伯语口语识别与转录系统开发。
- 背景:源于 1997 年 NIST Hub - 5NE 评测需求,填补阿拉伯语口语对话转录基准数据空白,推动阿拉伯语(含方言)会话语音识别技术发展,适配军事、通信等领域应用。
二、核心参数与数据结构
| 项目 | 详情 |
|---|---|
| 发布方 | 美国语言数据联盟(LDC),DARPA 资助,NIST 评测指定数据 |
| 发布编号 | LDC2002S22 |
| 语种 | 埃及阿拉伯语(ECA,口语) |
| 数据规模 | 20 段完整电话对话,每段含 5 分钟核心评测片段,共约 100 分钟有效语音转录,含说话人轮次与时间戳 |
| 数据来源 | CALLHOME 埃及阿拉伯语电话对话语料库 |
| 格式 | 文本转录(含 CTM 时间戳)、PEM 轮次标注、参考词表 |
| 编码 | UTF - 8 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)