Prague Dependency Treebank 2.0数据集介绍,官网编号LDC2006T01
·
Prague Dependency Treebank 2.0(PDT 2.0)是布拉格查理大学形式与应用语言学研究所(ÚFAL)于 2006 年发布的捷克语深层依存树库,基于功能生成描述(FGD)理论构建,含约 200 万词捷克语文本,覆盖形态、句法、语义三层手动标注,核心用于捷克语 NLP 的句法分析、语义角色标注、指代消解与依存解析模型研发,是捷克语最具影响力的语言学资源之一。
核心基础信息
| 项目 | 详情 |
|---|---|
| 发布机构 | 查理大学 ÚFAL(开发)、LINDAT/CLARIAH-CZ(分发) |
| 发布时间 | 2006 年 |
| 语种 | 捷克语(现代标准捷克语,含报纸、期刊等真实文本) |
| 数据类型 | 多层标注文本(形态、句法、语义)、元数据、标注工具 |
| 核心用途 | 捷克语句法分析、语义角色标注、指代消解、依存解析、语言模型训练 |
| 格式 | XML(标注文件)、文本(UTF-8)、配套工具(含搜索与可视化组件) |
| 理论基础 | 功能生成描述(FGD),强调表层句法与深层语义的层级化依存建模 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)