CHAINSFORMER: Numerical Reasoning on Knowledge Graphs from a Chain Perspective
2025-ICDE-重点文章

Abstract

知识图谱推理 (KG) 在知识图谱完成或问答系统中起着举足轻重的作用,提供更丰富、更准确的三元组和属性。随着数字属性在描述 KG 中的实体和关系中变得越来越重要,对这些属性进行推理的能力变得越来越重要。现有的基于图的方法,如图神经网络 (GNN) 和知识图嵌入 (KGE),主要侧重于聚合同构局部邻域和隐式嵌入不同的三元组。然而,这些方法往往无法充分利用图中逻辑路径的潜力,从而限制了它们在利用推理过程方面的有效性。为了解决这些限制,我们提出了 ChainsFormer,这是一种新颖的基于链的框架,旨在支持数值推理。Chainsformer 不仅显式地构造了逻辑链,而且还将推理深度扩展到了多个跃点。特别地,我们引入了关系属性链 (RA-Chains),这是一种专门的逻辑链,用于对顺序推理模式进行建模。ChainsFormer 通过采用顺序上下文学习来捕获 RA 链上多跳推理的分步性质。为了减轻嘈杂链的影响,我们提出了一种双曲亲和力评分机制,该机制在可变分辨率空间中选择相关的逻辑链。此外,ChainsFormer 还包含一个基于注意力的数字推理器来识别关键推理路径,从而提高推理的准确性和透明度。实验结果表明,ChainsFormer 的性能明显优于最先进的方法,性能提高了 20.0%。这些实施可在 https://github.com/zhaodazhuang2333/ChainsFormer 上获得。

索引术语 - 知识图谱、数字推理、思维链。

I. INTRODUCTION

知识图谱 (KGs) 上的推理有助于对未知信息和知识的推理,显著提高了 KGs 的实用性和适用性。近年来,它已被广泛应用于各种应用,包括知识图谱完成 [1]、[2]、推荐 [3]、[4] 和问答 [5]、[6],取得了令人印象深刻的成就。这些方法利用 KG 中的三元组来发现隐藏的模式,预测缺失的环节,并提供上下文感知建议 [7]。此外,对 KG 进行推理可以帮助 LLM 提高特定领域的专业知识并缓解幻觉问题 [8],[9]。因此,对关系三元组的推理获得了相当大的关注。

然而,对数字属性的推理,即数字推理,仍然是一个未被充分探索的领域。数值推理侧重于根据 KG 中的现有信息预测未知的数字属性。例如,如图 1(A) 所示,当查询缺失的属性 Coppola 的出生日期时,无法直接从相邻实体中检索答案。相反,它需要聚合来自相关实体的属性,包括像教父 III、索菲亚·科波拉这样的本地邻居,以及像 Al Pacino 这样的多跳邻居。因此,这种数字推理过程对于知识图谱完成和问答 [10] 等任务至关重要,提供了更全面的实体属性表征 [11]。反过来,这丰富了大型语言模型 (LLM) 可用的领域知识,有助于缓解幻觉问题并提高其整体可靠性。

现有的 KG 数值推理方法主要依赖于基于图的实体和关系,大致可分为基于 GNN 和基于 KGE 的方法。基于 GNN 的方法 [12]、[13] 利用图神经网络来聚合来自相邻节点和关系的信息,有效地捕获局部结构模式和关系依赖关系。基于 KGE 的方法 [14], [15] 将实体和关系嵌入到一个共享的潜在空间中,从而能够发现属性之间的隐含联系。然而,这些方法往往以同质的方式聚合来自邻居的信息,无法捕捉到逻辑路径的全部潜力,也无法将相关推理路径与众多噪声路径区分开来,从而影响了它们在复杂数值推理任务中的性能

最近,为了探索复杂任务中推理的好处,思维链 (CoT) 被提议作为多跳场景中一种很有前途的范式。它最初旨在解决自然语言处理中的挑战,例如数字问题解决 [16] 和基于逻辑的问答 [17]。通过将问题分解为顺序推理步骤,CoT 能够构建显式捕获中间过程的逻辑链 [18]。这种方法显著提高了需要逻辑一致性和数值准确性的任务的性能 [19],[20]。
在这里插入图片描述

在思维链原理的启发下,我们提出了一种基于链式推理而不是基于图的推理的新型范式。我们不是对静态图结构进行同质推理,而是专注于选择相关的逻辑链来精确分析和显式捕获推理模式。例如,如图 1(B) 所示,一条这样的链连接了 Al Pacino、Godfather III 和 Coppola,为查询提供了多跳推理路径。此外,我们按顺序表示这些链,以与多跳推理的分步性质保持一致,从而实现更好的推理能力。但是,这种转变带来了两个关键挑战:

(1) 如何设计逻辑链以有效地捕获推理模式?设计 logic chain 需要捕获数值任务中固有的顺序依赖关系和推理模式。这涉及定义可以被标记化为推理相关组件的结构,同时保持它们的逻辑顺序和相互依赖关系。这些链的适当分析和表示对于反映推理的逐步性质至关重要,确保模型可以处理不同的链。

(2) 如何过滤掉不相关的逻辑链?可能的 logic chain 数量随着推理的深度呈指数级增长,如图 2 所示。这种爆炸导致了许多不相关或嘈杂的 logic chains。识别和保留相关的数据对于数字推理至关重要。根据推理任务从广阔的搜索空间中准确选择相关的逻辑链仍然极具挑战性。
在这里插入图片描述

为了应对这些挑战,我们提出了 ChainsFormer,这是一种从链角度进行数值推理的新型框架。ChainsFormer 基于对图形的查询引导式检索构建链树 (ToC)。在第一个挑战中,ChainsFormer 引入了关系属性链 (RA-Chain),它将逻辑链描述为可组合单元(属性和关系)的序列。RA-Chains 支持上下文表示,可捕获分步推理过程并集成数字特征,从而允许序列嵌入技术学习不同的推理模式。对于第二个挑战,ChainsFormer 采用了双曲线亲和力评分机制来评估 RAChains 的相关性。利用 ToC 的层次结构,该机制有效地过滤掉了可变分辨率空间中不相关或有噪声的路径,确保准确的推理。此外,基于注意力的数字推理器会评估各个链的贡献,通过识别导致预测的关键推理路径来提高透明度。

综上所述,我们工作的主要贡献如下:

  • 我们提出了 ChainsFormer,这是一种在知识图谱上进行数值推理的新型框架。通过引入关系属性链 (RA-Chains),ChainsFormer 可以精确地分析和捕获顺序推理模式。它将推理的深度扩展到多跳。
  • 我们通过查询引导的检索构建**链树 (ToC)**来管理 RA 链,并利用上下文表示来实现沿链的分步推理过程。这种表示增强了长跃点和多跃点推理的逻辑一致性和灵活性。
  • 我们设计了一种双曲亲和力评分机制,利用 ToC 的层次结构来有效地过滤掉可变分辨率空间中不相关的链。这种机制减少了不相关和同质传播,提高了数值推理的透明度和准确性。

实验结果表明,与现有方法相比,我们提出的方法实现了最佳性能,比最先进的方法提高了 7.4% 到 20.0%。

II. RELATED WORK

A. Reasoning on Knowledge Graphs

知识图谱推理 (KGR) 旨在从 KG 的现有数据中推断新知识 [21]。它广泛用于问答 [5]、[6]、[22]、推荐系统 [3]、[4] 和知识图谱完成 [23] 等应用。KGR 技术通常分为基于规则的推理 [24]–[26]、知识图谱嵌入 (KGE) 方法。在这些方法中,KGE 方法,如 Trans 系列 [1]、[23]、[27]、[28] 和张量分解模型 [29]、[30],因其表现力而受到广泛关注。图神经网络 (GNN) [31]、[32] 的兴起导致人们关注基于 GNN 的 KGR [2]、[33]、[34],展示了更广泛的应用。虽然大多数现有的 KGR 方法都侧重于关系三元组,但最近的一些研究探讨了 KG 中的多模态信息 [35]、[36]。然而,对数字信息的推理在很大程度上仍然被忽视。 只有一些 KGE 方法包含数字属性以提高 KG 完成度。例如,TransEA [37] 和 Marine [38] 修改损失函数,而 LiteralE [39] 和 LiteralC [40] 使用门控机制来集成实体和属性。其他方法,如 NRN [41],对数字分布进行编码以进行统一推理,而 RAKGE [11] 则使用关系感知编码器来获取数字信息。尽管取得了这些进步,但现有方法侧重于对预定义值的推理,无法推断或完成 KG 中缺失的数字属性。

B. Numerical Reasoning on Knowledge Graphs

KG 的数值推理首先由 MTKGNN [12] 引入,然后演变为两大类:基于 KGE 的方法和基于图神经网络 (GNN) 的方法。基于 KGE 的方法直接使用嵌入进行数值推理。例如,[10] 集成了来自预训练语言模型的文本特征,用于数值属性的回归,而 HyNT [15] 将数值属性视为三元组的限定符,结合三元组信息进行数值预测。然而,直接回归稀疏数值属性带来了挑战[42]。尽管 KGA [14] 通过使用分箱简化了这项任务以链接预测,但分箱中固有的量化误差需要在分类难度和量化精度之间进行权衡。基于 GNN 的方法显示出更大的前景,但目前的方法仍然很初级。NAP++ [43] 通过最近的 K-NN 直接聚合属性,而 MrAP [13] 考虑不同路径下的属性传播,但仅限于本地邻居。我们的方法 ChainsFormer 将重点从基于图的视角转移到基于链的视角,实现了基于多跳路径推理的知识图谱中的数值推理

C. Hyperbolic Embedding

与欧几里得空间相比,双曲几何随其半径呈指数增长,使其成为处理以树状结构或幂律分布为特征的图数据的有前途的替代方案 [44],[45]。双曲神经网络 [46] 率先将基本的深度学习工具应用于双曲空间。[47] 首先使用切线空间将图神经网络扩展到双曲空间,催化了随后对双曲图表示的研究 [48],[49]。MuRP [50]、ATTH [51] 和 GIE [52] 将双曲几何扩展到知识图谱,有效地捕获潜在的层次结构并建模事实之间的层次结构。然而,现有的研究尚未解决由多跳关系和属性组成的逻辑链在双曲空间中的嵌入问题

III. PRELIMINARY

在本节中,我们介绍了数值推理的问题表述,并简要介绍了将在 ChainsFormer 中使用的双曲几何。

A. Problem Formulation

为了精确描述这个问题,我们在知识图谱上用数学方法定义了数值推理问题。使用数字属性丰富的多关系 KG 定义为 G = (V, R, A, N ),其中 V 表示节点(实体)集,R 是关系类型的集,A 是数字属性类型的集,N 是数值集。与关系三元组 Er ⊂ (V × R × V) 平行,我们将 KG 中的数值事实定义为数字三元组 Ea ⊂ (V × A × N)。
Definition 1. Numerical Reasoning on Knowledge Graphs. 给定一个多关系知识图谱 G = (V, R, A, N),数值推理旨在推断知识图谱 G 中缺失的数值。设 v ∈ V 表示查询实体,∈ A 表示数字属性,n ∈ N 表示预测的数值。数值推理任务被表述为回归问题,其中目标是学习一个函数 f : G × V × A → N,该函数预测不完整三元组 (v, a, ?) 的数值 n。

B. Hyperbolic Geometry

双曲几何是一种非欧几里得几何,其特征是恒定的负曲率 [53]。在双曲空间中,距离的指数增长与树结构中节点的指数增长一致 [46],使其成为建模分层和分支结构的理想选择。我们选择负曲率 −c(c > 0) 的 d 维庞加 ́ e 球 : Bd,c = {x ∈ Rd : ∥x∥2 < 1 c }。许多在欧几里得空间中定义明确的运算在双曲空间中不适用。因此,我们介绍了双曲几何的以下关键概念:M ̈ obius 加法和双曲距离。
M ̈ obius addition. 在 Poinca ́ e 球内直接添加两个点可能会导致一个点位于边界之外。相反,M ̈ obius 加法 [46] 提供了专门为双曲空间设计的欧几里得加法的对应物。Bd,c 中 x 和 y 的 M ̈ 方差加法定义为:
在这里插入图片描述在不损失一般性的情况下,情况 c > 0 可以减少为 c = 1。此作既不是交换的,也不是结合的,但它满足 x ⊕ c 0 = 0 ⊕c x = x。当 c = 0 时,它简化为欧几里得空间中向量的添加。
Hyperbolic Distance. 双曲空间中的距离由反映其曲率的度量控制。Bd,c 中两点 x , y 之间的距离定义为:
在这里插入图片描述
当 c = 0 时,d(x, y) → 2∥x − y∥,恢复为欧几里得几何。当 c = 1 时,我们可以得到归出的距离函数:
在这里插入图片描述
双曲几何的可变分辨率通过当一个人远离原点时双曲距离的指数增加来证明。此属性允许双曲空间自然地表示分层或树状结构。

IV. METHODOLOGY

在本节中,我们提供了 ChainsFormer 的详细描述。首先,我们解释 Relation Attribute Chain 的构造。接下来,我们描述 ChainsFormer 的四个关键组件,如图 3 所示:查询检索、双曲滤波器、链编码器和数值推理器。对于给定的查询,该过程展开如下:(1) 查询检索:通过搜索过程识别候选链。(2) 双曲滤波器:对相关链进行细化和过滤。(3) 链编码器:选中的链被编码到隐藏的表示域中。(4) 数值推理器:执行数值推理以得出最终结果。
在这里插入图片描述

A. From Graph to Chain Reasoning

基于 KGE 和基于 GNN 的方法在聚合信息时都引入了明显的冗余,失去了在各种路径中识别相关推理路径的能力。受 Chain-of-Thought (CoT) 的分步推理范式的启发,我们将数字推理从基于图的推理转变为基于链的推理。

具体来说,我们通过学习每个逻辑链的推理模式来执行数字推理。例如,对于任何已知的数字三元组,例如 (vp, ap, np),以及 nq 的查询 q = (vq, aq, ?),从 np 到 nq 的数字推理的完整逻辑链可以表示为 np ap −→ vp r1 −→ v1 r2 −→ .rl −→ vq aq −→ nq,其中 vl ∈ V 表示 vp 的 L 跃点邻域,r ∈ R 表示连接实体的关系。

Relation Attribute Chain (RA-Chain). 在数字推理中,推理模式主要由链内的关系和属性决定,而特定实体本身对原因模式并不重要。基于这一观察,本文中的推理模式采用联合形式:
在这里插入图片描述
其中 Rh 称为规则头,Rb0 (np, ap) ∧ · · ·∧ Rbl+1 (aq, nq) 称为规则主体。此外,我们将逻辑链标记化为关系属性链 (RA-Chain),表示为属性和关系的有序序列:
在这里插入图片描述
RA-Chain 的构造分析了推理模式,并明确地与数字属性的分步推理过程保持一致。实现精确和明确的数值推理。而且,随着长度的增加,它可以灵活地将推理深度扩展到多跳。

B. Query Retrieval

对于每个查询 q,可能会有大量嘈杂的 RA 链,可能达到数十万甚至数百万。为了降低计算成本,ChainsFormer 在 KG 中执行查询导向检索,以构建链树 (ToC) 进行采样和训练。此检索过程涉及足够数量的随机游走(表示为 Ns)来搜索 RA 链。在检索过程中,每个链 ci 都与其关联的数字属性 npi 配对,确保 ToC 同时捕获逻辑结构和数字信息。为避免冗余,将删除 walk 期间遇到的 cycle。然后,检索到的 RA 链及其相应的数字属性汇总到 ToC 中,表示为:
在这里插入图片描述
其中 ci 表示检索到的第 i 个 RA 链,npi 表示其相应的数字属性。

C. Hyperbolic Filter

给定一个查询 q = (vq, aq, nq),当考虑 ToC 中的所有链时,可能的推理路径数量变得巨大,从而引入逻辑噪声和高计算成本。双曲空间具有可变分辨率,为表示这种树状结构提供了一种有效的结构,使其有望过滤不相关的 RAChains。我们的研究结果表明,低维双曲滤波的性能几乎与高维欧几里得滤波一样有效,从而推动了它被 RA 链采用。为此,我们提出了双曲滤波器,它通过两个关键模块过滤掉嘈杂的 RA 链并增强 ToC:双曲链嵌入和双曲亲和力评分。
Hyperbolic Chain Embedding. 受基于翻译的嵌入模型 [23] 和相对关系距离 [34] 的启发,我们提出了一种简单的双曲链嵌入来实现 RA 链在双曲空间中的嵌入。具体来说,对于任何 RA 链 c = (ap, r1, r2, …, rl, aq),我们初始化属性 a 和关系 r 的双曲表示 ha 和 hr,并使用 M ̈ obius 加法来获得 c 的关系链表示:
在这里插入图片描述
其中 hrl ∈ Bd,c 表示 rl ∈ R 在 d 维 Poincar ́ e 球中的嵌入。hc ∈ Bd 将 logic length 和各种类型的关系封装在 RA-Chain 中。这个过程可以看作是双曲空间中关系的转换,提供了大量 RAChain 的简单但有效的表示。
Hyperbolic Affinity Score. 为了选择相关的 RA 链并增强数字推理的 ToC,我们提出了双曲亲和力评分 scH。该分数从内部和内部角度评估 RA-Chain c 的有效性。分数间衡量关系 (r1, r2, …, rl) 和查询属性 aq 之间的相关性。intra-score 评估已知属性 ap 和 query 属性 aq 之间的匹配级别。

分数间是通过测量查询属性 aq 和关系链之间的双曲距离来计算的:
在这里插入图片描述
其中 ha ∈ Bd,c 表示属性的双曲嵌入。

另一方面,内部分数评估查询属性 aq 与已知属性 ap 之间的相似性,使用双曲距离计算以获得 d(hap , haq )。
双曲亲和力评分可以通过以下公式获得:
在这里插入图片描述
其中 λ 是平衡分数间和分数内的超参数。

对于每个查询 q 及其相应的 ToC Tq,双曲滤波器计算所有 RAChains 的双曲亲和力分数,并选择前 k 个候选者来形成增强的 ToC,表示为 T k q:
在这里插入图片描述
其中 card 表示集合的基数。这个过程减少了搜索空间并保留了最相关的 RA 链,从而实现更高效、更准确的数字推理。

D. Chain Encoder

对于查询 q 和增强的 ToC T k q ,我们提出了一个 Chain Encoder 来编码其中的每个 RA-Chain。Chain Encoder 由两个部分组成:In-Context Chain Representation,它使用基于 Transformer 的序列编码器来建模 RA Chains,启用上下文表示以构建逐步推理框架,以及 Numerical-Aware Affine Transfer,它将具有不同分布的属性集成到链嵌入中,允许 RA-Chains 自适应地感知数值。

In-Context Chain Representation. 给定一个查询 q = (vq, aq, nq) 和一个 RA 链 c = (ap, r1, r2, …, rl, aq),我们使用纯编码器 Transformer 模型对链进行编码。通过对链的顺序结构进行标记化和表示,ChainsFormer 捕获了关系和属性之间的上下文关联,从而有效地对分步推理模式进行建模。变压器 P (0) 的输入为:
在这里插入图片描述
其中 e(0) a , e(0) r ∈ Rd 表示属性 a 和关系 r 在欧几里得空间中的投影向量,可以通过方程 12 得到,我们使用对数映射将向量从 Bd,c 投影到 Rd。e(0) end 表示每个 logic chain 的公共 end token 嵌入。[E1∥…∥en] 是 vector 的水平连接。

然后,我们通过注意力层学习关系和属性的相互依赖关系:
在这里插入图片描述
其中 Q(i)、K(i)、V (i) ∈ Rd×d 分别是 query、key 和 value 的投影矩阵。我们应用 Transformer 的 Lc 层,利用多头注意力机制 [54],残差连接 [55],然后进行层归一化。通过对 i = 0, …, Lc − 1 重复上述过程,我们得到最终表示 P (Lc) 并选择 e(Lc) 端作为链表示,表示为 ec,其中包含从 ap 到 aq 的完整分步推理信息。
Numerical-Aware Affine Transfer. 与 RA 链相关的数值 np 的大小也会影响推理结果。然而,由于不同属性的数值分布存在巨大差异(例如,身高为 1.81m 与人口为 3.1e9),将这些数值特征直接集成到逻辑链中是具有挑战性的 [10],[42]。因此,我们设计了数值感知仿射转移,它通过 Affine 网络自适应地生成数值参数,以进行值感知数值推理。

为了简化解释,我们选择一个 RA-Chain c,链表示 ec get by Transformer 和 connected 属性值 np。由于数值分布的广泛数值范围和严重的稀疏性使数值嵌入具有挑战性,我们首先将连续值 np 编码为机器更容易理解的形式。具体来说,我们将 np 从实值空间映射到 Float64 0-1 位流:
在这里插入图片描述
其中fn : R → R64.这种方法从自然语言处理中的数字嵌入中汲取灵感,利用指数或科学记数法使数值更易于机器处理[42]。

然后,我们根据属性值 np 生成数值参数 Enp = [Eα np , Eβ np ]:
在这里插入图片描述
其中 Eα np ∈ Rd×d 表示旋转矩阵,Eβ np ∈ Rd 表示偏倚向量。之后,我们对 logic chain 的潜在嵌入进行仿射投影 [56],以执行数值感知特征缩放:
在这里插入图片描述
其中 ec 是 Transformer 的输出,̃ ec 是 RA-Chain c 的值感知自适应表示。通过这种方式,我们根据其数值大小对每条 RA 链进行仿射变换,实现跨链数字特征的有效表示和利用。

Chain Encoder 计算每个 RA-Chain ci 的价值感知链表示 ̃ ec ∈ T k q ,将它们连接起来形成链表示矩阵 E = [ ̃ ec1 ∥…∥ ̃ eci ∥…∥ ̃ eck ]。

E. Numerical Reasoner

给定一个查询 q 及其增强的 ToC T k q ,如图 3 (C) 所示,数值推理器旨在对每个 RA 链和链加权执行数值预测,以评估每个链的贡献并确定关键推理路径。
Numerical Prediction. 对于每个链 c,Numerical Reasoner 对从链上的已知值 np 推断查询值 nq 的推理过程进行建模。具体来说,此过程被表述为数字属性值的转换,由一般作 nq = np ⊕ ec 表示。此作称为沿属性和关系的数值投影,用于捕获整个 RA-Chain 上的值转移。我们评估了三种不同的数值投影方法,以通过实验评估它们的有效性。

第一种方法是数值域的 Translation Projection,这种方法直接将 Translation 因子 β 添加到已知值 np 上,表示 np 沿链是如何平移的:
在这里插入图片描述
表示数值的线性偏移。第二种方法涉及缩放投影,将已知值 np 缩放一个因子 α,并根据逻辑的上下文调整数值:
在这里插入图片描述
它根据数值神经逻辑链的特性修改 NP 的大小。第三种方法结合了这两种方法:
在这里插入图片描述
缩放投影因其在各种数值范围内的多功能性以及跨不同属性类型进行推理的能力而受到青睐。
Logic Chain Weighting. 每条链的相对重要性,并确定关键的 RA 链。通过利用每条链的不同贡献,这种方法允许推理路径的可追溯性,从而提高推理结果的透明度。
Treeformer C(0) 的输入为:
在这里插入图片描述
其中 ̃ ep ∈ Rd 表示 Chain Encoder 获得的链表示,fLen ∈ Rd 是长度编码的可学习层。省略位置编码,因为 logic chain 的顺序并不重要。相反,我们合并了长度编码来表示 RA-Chain 的顺序。

Lc 层后的树表示 C(Lc) 反映了不同 RA 链在增强型 ToC T k q 中对数值推理的影响和相对重要性。然后,输出通过 softmax 的线性层:
在这里插入图片描述
ω ∈ Rk,它反映了每条链的重要分数。ω 分数越高,表明 RA-Chain 更有可能影响推理。

通过描述不同 RA 链的重要性,Numerical Reasoner 模拟了人类决策。它评估每个信息源的预测能力并相应地对其进行加权。最后,我们使用重要性分数对链式预测进行加权和求和:
在这里插入图片描述
其中 ωci 表示 CI 的重要性得分,ˆ nq 表示 nq 的预测值。

F. Training and Optimization

Loss Function. 为了优化 ChainsFormer 的数值推理,我们定义了一个损失函数来测量预测数值 ˆ nq 和实际值 nq 之间的差异。由于数值属性的范围不同,因此我们在计算损失之前应用最小-最大归一化来消除这种偏差。值 n 的最小-最大规范化定义为:
在这里插入图片描述
其中 min(na) 和 max(na) 是属性 A 的最小值和最大值。我们定义了模型的以下损失函数 L 以最小化预测误差:
在这里插入图片描述
其中 norm(ˆ nq) 表示归一化预测结果,L 是均方误差损失。

Model Training Process. 在每个 epoch 中,对于每个查询 q = (vq, aq, nq),我们首先执行查询导向的检索,以构建包含各种 RA 链的链 Tq 树。然后使用双曲滤波器在双曲空间中过滤 ToC 以提取相关链,形成 Tk q 。接下来,使用 Chain Encoder 来表示链,然后通过 Numerical Reasoner 进行数值推理和结果可追溯性,从而在知识图谱中实现精确和可解释的数字推理。ChainsFormer 的详细训练过程总结在算法 1 中。
在这里插入图片描述

G. Complexity Analysis

我们分析了我们提出的模型的计算复杂性。时间复杂度为 O(Nsd + kd2),其中 Ns 表示随机游走的次数,k 表示过滤计数,d 表示隐藏维度。具体来说,我们的算法包括三个主要步骤。首先,Query Retrieval 和 Hyperbolic Filter 涉及随机游走和双曲亲和力分数的计算,导致时间复杂度为 O(Ns + Nsd) ≈ O(Nsd)。接下来,Chain Encoder 利用基于 Transformer 的架构进行上下文表示,复杂度为 O(k(d2l + dl2)),其中 l 是序列长度。由于 l 是一个小常数,因此 Chain Encoder 的复杂度主要取决于 O(kd2)。最后,Numerical Reasoner 计算链贡献,主要复杂度在于路径加权,得到 O(kd2)。值得注意的是,由于 ChainsFormer 避免了对整个图的穷举遍历,因此计算成本仍然很低。其基于序列的设计还支持并行处理,确保实际应用的高效率。

V. EXPERIMENT

在本节中,我们评估了所提出的方法的有效性并进行了广泛的实验。详细介绍了更全面、更深入的分析,旨在回答以下研究问题。
• RQ1:ChainsFormer 在数值推理中与其他基线相比表现如何?
• RQ2:从图过渡到链如何增强推理深度和能力?
• RQ3:所提议模型的每个部分的效果如何?
• RQ4:超参数和数值投影方法对数值推理有什么影响?

A. Setup

B. Performance Comparison (RQ1)

C. Effectiveness of Graph to Chain (RQ2)

D. Effectiveness of Model Components (RQ3)

E. Hyperparameter Analysis and Explore Experiments (RQ4)

F. Numerical Projection Methods

G. Comparison with LLM

VI. CONCLUSION

在这项工作中,我们引入了 ChainsFormer,这是一种新颖的框架,可以从链的角度增强数值推理。通过构建关系属性链 (RA-Chain),该模型有效地分析和捕获推理模式,从而实现逐步和明确的推理过程。实验结果表明,ChainsFormer 显著提高了数值推理性能,增强了对多跳的推理深度,揭示了不完整知识图谱中隐藏的联系,提供了准确的推理结果。

未来,我们计划通过集成文本和图像等多模态信息来扩展 ChainsFormer,以进一步增强其推理能力。此外,我们将引入链质量评估机制来解决低质量的 RA 链。我们还旨在探索它在更广泛的推理任务中的应用,并将框架扩展到更大的知识图谱。此外,我们将研究 RA-Chains 与大型语言模型的兼容性,以释放知识驱动推理的新潜力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐