Multiple-Translation Chinese (MTC) Part 2数据集介绍,官网编号LDC2003T17
·
Multiple-Translation Chinese (MTC) Part 2(LDC2003T17)是 LDC 发布的中英翻译评测基准数据集,核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化,适配 NLP 翻译评测算法研发与模型调优。以下是详细介绍:
核心定位与背景
- 支撑中文 - 英文机器翻译的多参考评估研究,聚焦翻译流畅度(Fluency)与充分性(Adequacy)的人工与自动评测,为翻译模型性能验证提供标准基准。
- 由 LDC 发布,源自 TIDES 项目,构建于 2003 年,适配统计机器翻译时代的评测需求,至今仍是翻译评估领域的经典数据集Linguistic Data Consortium。
数据规模与构成
| 项目 | 详情 |
|---|---|
| 核心语料 | 100 篇中文新闻故事(含 546 段新华社、332 段联合早报文本,共 878 段),每段配 4 组人工参考译文Linguistic Data Consortium |
| 译文类型 | 4 组人工翻译 + 3 组系统译文(P2-05、P2-09、P2-14),覆盖专业人工与主流机器翻译系统输出 |
| 标注信息 | 人工标注每段译文的流畅度与充分性评分,含标注者 ID、评分标准与元数据标签 |
| 主题覆盖 | 政治、经济、文化等新闻常见领域,内容正式规范,符合现代标准中文表达习惯Linguistic Data Consortium |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)