1. 这篇论文想解决什么?

大语言模型之所以能在不同任务上表现出很强的迁移能力,一个重要原因是:文本可以被切分成 token。

一句话可以拆成词、子词或符号;图像可以被看成像素或图像块。
这些 token 构成了模型能够反复使用的“基础单位”。

但知识图谱不一样。

知识图谱中的实体和关系虽然也是离散符号,但它们并不排列在一个固定网格上。一个知识图谱可能是社交关系,一个可能是学术网络,一个可能是公司组织结构。它们的实体名称、关系名称完全不同,局部连接方式也千差万别。

问题就出现了:

如果知识图谱没有像文本 token 那样统一的基础单位,知识图谱基础模型该如何跨图谱迁移?

Amouzouvi 等作者给出的答案是:

把小型图结构 graphlets 当作知识图谱中的“结构 token”。

也就是说,模型不再只依赖实体名或关系名,而是学习不同知识图谱中反复出现的局部结构模式。

  1. 核心直觉:名字不同,结构相同

作者在论文中给出了一个很清楚的例子。

在家庭知识图谱中,可能存在这样的关系:

  • son_of
  • wife_of
  • grand_father_of

在公司知识图谱中,可能出现:

  • mentor_of
  • cofounder_with
  • grandvisor_of

在学术知识图谱中,又可能出现:

  • student_of
  • coauthor_of
  • grandvisor_of

这些关系的名称并不相同,但它们在图中的连接形态可能高度相似。

这意味着,模型真正需要学习的,不一定是“某个具体关系叫什么名字”,而是:

某些关系如何共同组成一个可迁移的结构模式。

这正是知识图谱基础模型的关键思想:
不要只记住标签,而要识别结构不变量。

作者认为,graphlet 就可以扮演这种结构不变量的角色。

  1. Graphlet 是什么?

简单来说,graphlet 是知识图谱中的小型连通子图。

它可以是:

  • 两条边组成的路径;
  • 三条边组成的路径;
  • 一个闭合环;
  • 一个以某个实体为中心的星形结构;
  • 一组关系共同形成的局部拓扑模式。

作者将这些 graphlets 视为结构词汇表中的基本单位。

如果把知识图谱类比成语言,那么:

类比对象 语言模型 知识图谱基础模型
基础单位 token graphlet
组合对象 句子 关系子图
学习目标 语言模式 结构模式
迁移依据 词汇复用 图结构复用

这篇论文的核心创新并不是提出一个完全新的神经网络架构,而是重新设计了知识图谱基础模型的“结构词汇表”。

也就是说,作者关注的是:

模型到底应该用什么样的结构单位来理解知识图谱?

  1. Ultra+:把图模式变成结构词汇

作者提出的方法叫 Ultra+

Ultra+ 可以看作是在 Ultra 框架上的扩展。原始 Ultra 主要依赖长度为 2 的路径来构造关系图,而 Ultra+ 进一步引入了更丰富的 graphlet 词汇。

Ultra+ 的做法可以概括为四点:

第一,使用 graphlet 构造结构词汇表。
作者不只关注两个关系是否共现,还关注它们是以开放路径、闭合路径、三跳路径还是星形结构的方式共现。

第二,区分开放路径和闭合路径。
这是论文非常重要的一点。过去一些方法会把相似长度的路径混在一起看,但作者认为开放路径和闭合路径表达的语义不同,应该被区分。

第三,把高阶 graphlet 转换为位置二元关系。
Motif 等方法会用 n-ary relation 或超图来表达多个关系之间的高阶结构。作者则使用 positional binary order,把复杂 graphlet 拆成位置相关的二元关系。这让关系图仍然保持为普通图,而不是复杂的超图。

第四,使用 SPARQL 查询进行结构抽取。
作者没有继续依赖稀疏矩阵乘法来构造关系图,而是为结构词汇表中的每个 graphlet 设计 SPARQL ASK 查询。这样可以更灵活地抽取开放路径、闭合路径和其他复杂结构。

一句话总结:

Ultra+ 的关键不是换一个更大的模型,而是给知识图谱基础模型换一套更细、更稳、更可迁移的结构词汇。

  1. 为什么要区分开放路径和闭合路径?

开放路径和闭合路径看起来只差一个“是否回到原点”,但在图结构中,它们表达的关系模式完全不同。

例如:

开放路径:

A → B → C

这种结构强调的是链式传播。

闭合路径:

A → B → C → A

这种结构强调的是循环、互证或封闭关系。

在知识图谱中,闭合结构往往非常重要。
例如家庭关系、合作关系、学术师承关系、公司组织关系中,都可能存在强烈的环状结构。

如果模型无法区分开放路径和闭合路径,就可能把不同语义的结构混为一谈。

作者认为,这正是已有知识图谱基础模型的一个不足:

  • Ultra 主要依赖长度为 2 的路径;
  • Motif 引入了更高阶 motif,但没有充分区分开放路径和闭合路径;
  • Ultra+ 则明确把开放路径和闭合路径都纳入结构词汇表。

因此,Ultra+ 能捕捉到更细粒度的关系模式。

  1. Ultra+ 和 Motif 有什么不同?

这篇论文的一个重要对比对象是 Motif。

Motif 使用 n-ary motifs 构造关系超图。
这种方式能够表达多个关系之间的共同出现,但也带来两个问题:

其一,计算结构更复杂。
超图中的消息传递比普通关系图更复杂,邻域计算也更重。

其二,某些情况下表达能力并不占优。
作者在理论分析中指出,Ultra+ 通过位置二元关系保留了关键结构信息,同时避免了超图的复杂性。

这里的关键思想是:

一个三元 motif 可以被看成若干位置二元结构的组合;Ultra+ 用更简单的关系图表达了足够强的结构信息。

作者还通过定理说明:
如果 Ultra+ 的关系图中两个关系之间不存在对应边,那么 Motif 中对应的超边也不会存在。换句话说,Ultra+ 的二元结构能够覆盖 Motif 中一部分关键高阶信息,并且更稳健。

  1. 实验结果说明了什么?

作者在零样本链接预测任务上评估 Ultra+。

实验设置包括:

  • 预训练图谱:CoDEx Medium、FB15k237、WN18RR;
  • 评估任务:归纳实体预测、图迁移、传导式链接预测;
  • 主结果覆盖 51 个知识图谱;
  • 评价指标:MRR、Hits@10;
  • 对比模型:Ultra、Motif、不同结构词汇版本的 Ultra+。

作者设计了多个 Ultra+ 变体:

模型变体 使用的结构词汇
Ultra+[V₂⁻] 只使用开放 2 路径
Ultra+[U₂] 使用 2 路径,但不区分开放/闭合
Ultra+[V₂] 使用开放与闭合 2 路径
Ultra+[V₂⁺] 在 V₂ 基础上加入 N-M 拓扑结构
Ultra+[V₃⁻] 使用开放 3 路径
Ultra+[V₃] 使用开放与闭合 3 路径
Ultra+[V₃⁺] 在 V₃ 基础上加入 N-M 拓扑结构

最关键的结果出现在表 1。

Ultra+[V₃] 在 51 个知识图谱平均结果上取得了最好的总体表现:

  • Total Avg. MRR:0.387
  • Total Avg. H10:0.549

作为对比:

  • Ultra:MRR 0.374,H10 0.529
  • Motif:MRR 0.378,H10 0.537
  • Ultra+[V₂]:MRR 0.384,H10 0.544

这说明两点:

第一,区分开放路径和闭合路径确实有帮助。
Ultra+[V₂] 只使用 2 路径结构,但因为显式区分开放和闭合路径,已经超过了 Ultra 和 Motif。

第二,扩大路径型结构词汇通常能继续提升效果。
Ultra+[V₃] 比 Ultra+[V₂] 更强,说明 3 路径结构提供了更丰富的可迁移模式。

  1. 更大的词汇一定更好吗?

答案并不是。

这篇论文有一个很有意思的发现:

扩大路径型结构词汇通常有帮助,但加入拓扑型 graphlet 不一定继续提升性能。

例如:

  • Ultra+[V₃] 的总体 MRR 是 0.387;
  • Ultra+[V₃⁺] 加入 N-M 拓扑结构后,总体 MRR 变为 0.382;
  • Ultra+[V₂] 的总体 MRR 是 0.384;
  • Ultra+[V₂⁺] 加入 N-M 拓扑结构后,总体 MRR 变为 0.372。

这说明,结构词汇表并不是越大越好。

一个更大的词汇表可能带来更多模式,但也可能引入噪声,尤其是在不同知识图谱结构差异较大时。作者因此指出,路径型结构词汇的扩展比较稳定,而拓扑型结构词汇如何选择仍然需要进一步研究。

这对知识图谱基础模型很重要:

结构词汇表不是简单堆叠,而是需要精心设计。

  1. 稀疏图谱上也有效吗?

知识图谱常常是稀疏的。
在稀疏图谱中,关系和实体连接较少,模型更难捕捉可靠模式。

作者专门比较了 Ultra、Motif 和 Ultra+ 在 5 个稀疏传导式数据集上的表现,包括:

  • WDsinger
  • NELL23k
  • FB15k237(10)
  • FB15k237(20)
  • FB15k237(50)

表 2 显示,Ultra+ 在这些稀疏数据集上整体表现更强。

例如:

  • 在 NELL23k 上,Ultra+[V₃] 的 MRR 达到 0.250,高于 Ultra 的 0.239 和 Motif 的 0.220;
  • 在 FB15k237(20) 上,Ultra+[V₂] 的 MRR 达到 0.274,高于 Ultra 的 0.272 和 Motif 的 0.259;
  • 在 FB15k237(50) 上,Ultra+[V₂] 的 MRR 达到 0.329,高于 Ultra 的 0.324 和 Motif 的 0.312。

这说明,Ultra+ 的结构词汇不仅在平均结果上有效,在稀疏场景中也具有一定优势。

  1. 计算效率也是一个亮点

除了效果提升,作者还强调了 Ultra+ 在关系图构造上的效率优势。

传统方法常用稀疏矩阵乘法来计算关系之间的结构连接。
但当结构词汇表变复杂,尤其是要区分开放路径和闭合路径时,矩阵方法会变得昂贵。

Ultra+ 使用 SPARQL ASK 查询来抽取 graphlet。
这样做有三个好处:

  • 更容易表达不同类型的 graphlet;
  • 更容易区分开放路径和闭合路径;
  • 不需要依赖大规模 GPU 显存来完成关系图构造。

表 17 展示了 Query-based 方法和 SPMM 方法的运行时间对比。

例如:

  • WN18RR 上,Query-based 方法约 8 秒,SPMM 约 10 分 24 秒;
  • FB15k237 上,Query-based 方法约 1 分 3 秒,SPMM 约 1 小时 52 分 43 秒;
  • CoDEx Medium 上,Query-based 方法约 30 秒,SPMM 约 1 小时 7 分 52 秒。

这说明,Ultra+ 不只是性能更好,也让复杂结构词汇的构建更现实。

结语:知识图谱也需要自己的“token”

这篇论文最值得关注的地方,是它把知识图谱基础模型的问题重新表述为一个“结构词汇表”问题。

语言模型依赖 token。
视觉模型依赖像素或 patch。
知识图谱基础模型则需要一种属于图结构的基础单位。

作者提出,graphlets 可以成为这种结构单位。

Ultra+ 的价值在于:

它让知识图谱模型不再只看实体名和关系名,而是学习不同图谱中可复用的结构模式。

从实验结果看,开放路径与闭合路径的区分非常关键;从方法设计看,位置二元关系让模型避免了超图复杂性;从计算实现看,SPARQL 查询让结构抽取更加灵活高效。

当然,这篇论文也留下了进一步研究空间。
例如,拓扑型 graphlet 并不总是带来提升,说明结构词汇表的扩展仍然需要更细致的选择机制。未来,如果能够自动发现最有效的 graphlet 组合,知识图谱基础模型可能会拥有更强的跨领域迁移能力。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐