1997 HUB5 Arabic Transcripts(1997 HUB5 阿拉伯语对话转录数据集,LDC2002S22)是 DARPA 资助、LDC 发布的阿拉伯语电话对话转录语料,为 1997 年 NIST Hub - 5NE 非英语会话语音识别评测的核心数据,专注埃及阿拉伯口语(ECA),用于阿拉伯语语音识别、口语处理与模型基准评测。以下从核心定位、关键参数、标注规范、获取与应用等方面详细介绍。


一、核心定位与背景

  • 定义:基于 CALLHOME 埃及阿拉伯语电话对话构建的参考转录集,含 20 段完整对话的人工转录文本,配套说话人轮次、时间戳与发音标注,适配电话场景下阿拉伯语口语识别与转录系统开发。
  • 背景:源于 1997 年 NIST Hub - 5NE 评测需求,填补阿拉伯语口语对话转录基准数据空白,推动阿拉伯语(含方言)会话语音识别技术发展,适配军事、通信等领域应用。

二、核心参数与数据结构

项目 详情
发布方 美国语言数据联盟(LDC),DARPA 资助,NIST 评测指定数据
发布编号 LDC2002S22
语种 埃及阿拉伯语(ECA,口语)
数据规模 20 段完整电话对话,每段含 5 分钟核心评测片段,共约 100 分钟有效语音转录,含说话人轮次与时间戳
数据来源 CALLHOME 埃及阿拉伯语电话对话语料库
格式 文本转录(含 CTM 时间戳)、PEM 轮次标注、参考词表
编码 UTF - 8
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐