Multiple-Translation Chinese (MTC) Part 2(LDC2003T17)是 LDC 发布的中英翻译评测基准数据集,核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化,适配 NLP 翻译评测算法研发与模型调优。以下是详细介绍:


核心定位与背景

  • 支撑中文 - 英文机器翻译的多参考评估研究,聚焦翻译流畅度(Fluency)与充分性(Adequacy)的人工与自动评测,为翻译模型性能验证提供标准基准。
  • 由 LDC 发布,源自 TIDES 项目,构建于 2003 年,适配统计机器翻译时代的评测需求,至今仍是翻译评估领域的经典数据集Linguistic Data Consortium。

数据规模与构成

项目 详情
核心语料 100 篇中文新闻故事(含 546 段新华社、332 段联合早报文本,共 878 段),每段配 4 组人工参考译文Linguistic Data Consortium
译文类型 4 组人工翻译 + 3 组系统译文(P2-05、P2-09、P2-14),覆盖专业人工与主流机器翻译系统输出
标注信息 人工标注每段译文的流畅度与充分性评分,含标注者 ID、评分标准与元数据标签
主题覆盖 政治、经济、文化等新闻常见领域,内容正式规范,符合现代标准中文表达习惯Linguistic Data Consortium
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐