Arabic News Translation Text Part 1(LDC2004T15)是 LDC 发布的阿拉伯语 - 英语新闻翻译平行文本语料库,以阿拉伯语新闻专线文本为源语、人工翻译的英语文本为目标语,提供句级对齐的高质量双语文本,适配机器翻译、双语对齐、阿拉伯语 NLP 模型训练等任务,是早期阿拉伯语 - 英语翻译资源的重要基准。以下是详细介绍:


基本信息

项目 详情
发布机构 LDC(Linguistic Data Consortium)
发布时间 2004 年
数据集编号 LDC2004T15
数据规模 约 18,000 句阿拉伯语新闻文本 + 对应人工翻译英语句,覆盖政治、经济、国际事件等新闻主题
文本类型 阿拉伯语新闻专线文本(Newswire)
标注体系 句级对齐、人工翻译质量控制(符合 LDC 阿拉伯语 - 英语翻译规范)
应用场景 机器翻译(阿拉伯语 - 英语)模型训练与评测、双语词典构建、跨语言句法分析、命名实体对齐
配套资源 翻译规范文档、句对齐工具、文本格式转换脚本

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐