Prague Dependency Treebank 2.0(PDT 2.0)是布拉格查理大学形式与应用语言学研究所(ÚFAL)于 2006 年发布的捷克语深层依存树库,基于功能生成描述(FGD)理论构建,含约 200 万词捷克语文本,覆盖形态、句法、语义三层手动标注,核心用于捷克语 NLP 的句法分析、语义角色标注、指代消解与依存解析模型研发,是捷克语最具影响力的语言学资源之一。

核心基础信息

项目 详情
发布机构 查理大学 ÚFAL(开发)、LINDAT/CLARIAH-CZ(分发)
发布时间 2006 年
语种 捷克语(现代标准捷克语,含报纸、期刊等真实文本)
数据类型 多层标注文本(形态、句法、语义)、元数据、标注工具
核心用途 捷克语句法分析、语义角色标注、指代消解、依存解析、语言模型训练
格式 XML(标注文件)、文本(UTF-8)、配套工具(含搜索与可视化组件)
理论基础 功能生成描述(FGD),强调表层句法与深层语义的层级化依存建模
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐