Multiple-Translation Chinese (MTC) Part 2数据集介绍，官网编号LDC2003T17

LinguisticData

628人浏览 · 2026-01-09 10:56:34

LinguisticData · 2026-01-09 10:56:34 发布

Multiple-Translation Chinese (MTC) Part 2（LDC2003T17）是 LDC 发布的中英翻译评测基准数据集，核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化，适配 NLP 翻译评测算法研发与模型调优。以下是详细介绍：

核心定位与背景

支撑中文 - 英文机器翻译的多参考评估研究，聚焦翻译流畅度（Fluency）与充分性（Adequacy）的人工与自动评测，为翻译模型性能验证提供标准基准。
由 LDC 发布，源自 TIDES 项目，构建于 2003 年，适配统计机器翻译时代的评测需求，至今仍是翻译评估领域的经典数据集Linguistic Data Consortium。

数据规模与构成

项目	详情
核心语料	100 篇中文新闻故事（含 546 段新华社、332 段联合早报文本，共 878 段），每段配 4 组人工参考译文Linguistic Data Consortium
译文类型	4 组人工翻译 + 3 组系统译文（P2-05、P2-09、P2-14），覆盖专业人工与主流机器翻译系统输出
标注信息	人工标注每段译文的流畅度与充分性评分，含标注者 ID、评分标准与元数据标签
主题覆盖	政治、经济、文化等新闻常见领域，内容正式规范，符合现代标准中文表达习惯Linguistic Data Consortium

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

这款DeepSeek V4终端编程神器，在GitHub上火了！

AtomGit开源社区

MAI-Image-2.5 技术全解：架构、核心能力与生产级部署实践

本文围绕 MAI-Image-2.5 文本生成与图像编辑模型展开深度技术解析，该模型采用 Transformer + 扩散混合架构，依托稀疏注意力、掩码特征锁定、身份特征嵌入及 OCR 监督等技术，实现局部精准编辑、身份特征保持、高保真文本渲染三大核心能力。文章拆解其网络结构、训练方案、损失函数，对比标准版与极速版的推理特性，并详解 Foundry、OpenRouter 两大生产级部署方案与调用示