论文总结

1、作者将知识增强深度学习(KADL),把知识分为科学知识和经验知识两大类,其中,科学知识主要是数学理论和物理模型;经验知识主要是知识图谱(实体关系和实体属性)、逻辑符号、概率依赖关系等;然后将整合方法,分成了数据层、网络架构层、训练层和决策层四个级别。

2、数据层:通过模拟器(如游戏引擎、物理引擎)生成合成数据来增强训练集,弥补真实数据不足;架构层:设计特殊的网络层或连接方式,将知识“硬编码”进网络。例如,哈密顿神经网络(HNN) 将能量守恒定律融入网络结构;等变网络通过特殊层设计保证输出对旋转等变换具有不变性或等变性;训练层:将知识作为正则化项或约束条件加入到损失函数中。这是最常用的方法,例如物理信息神经网络(PINN) 通过在损失函数中加入偏微分方程的残差来指导模型学习;决策层:将数据驱动的模型预测与基于知识的模型(如贝叶斯网络)预测通过贝叶斯公式等方式进行融合,取长补短。

3、整个论文更加偏向于物理、数学等理工科领域,公式比较多;论文虽然提到了生物医学领域的应用(如解剖学、面部动作单元(AUs)之间的依赖关系),但并未将“生物知识”作为一个独立的、与“物理知识”平行的“科学知识”子类别进行深入探讨,也缺乏对生物信息学(如基因调控网络、蛋白质相互作用)等更专门领域的讨论。

4、论文在最后一部分提到了未来方向,其中很重要的一点是知识整合中的不确定性。现有方法大多是确定性的,但无论是科学知识(如物理参数随机)还是经验知识(如关系不明确)都存在不确定性。如何建模和传递这种不确定性是一个重要的开放问题。

摘要

尽管深度学习模型在过去几年在多个领域取得了巨大成功,但它们通常数据需求大,在未见样本上表现不佳,且缺乏可解释性。目标领域中通常存在不同类型的先验知识,这些知识的使用可以弥补深度学习的不足。为了更好地模拟人脑的行为,提出了多种先进方法来识别领域知识并将其集成到数据高效、可推广且可解释的深度学习模型中,我们称之为知识增强深度学习(KADL)。在本综述中,我们定义了KADL的概念,并介绍了其三大主要任务:知识识别、知识表示和知识整合。与专注于特定知识类型的现有调查不同,我们提供了广泛且完整的领域知识及其表述的分类法。基于我们的分类法,我们对现有技术进行了系统综述,这与现有研究中对知识分类学中立的整合方法进行调查不同。本综述涵盖现有研究,提供KADL广泛研究的鸟瞰视角。对众多论文的全面且批判性综述不仅有助于理解当前进展,还为KADL研究的未来方向奠定基础。

引言

尽管现有深度模型在各领域取得了令人印象深刻的性能,但它们存在若干严重缺陷,包括高度依赖数据和泛化能力差[1]。这些缺陷主要源于模型的数据驱动性质以及它们无法有效利用领域知识。为解决这些局限性,知识增强深度学习(KADL)范式开始吸引研究人员关注,该范式将领域知识与可观测数据协同工作,产生数据高效、可推广且可解释的深度学习算法。现实世界的领域知识非常丰富。在深度学习的背景下,领域知识主要来源于两个来源:目标知识和测量知识。目标知识控制我们打算预测的目标变量的行为和属性,而测量知识则控制产生目标变量观测数据的底层机制。基于其表示,我们提议将深度学习中探索的领域知识分为两类:科学知识和体验性知识。科学知识代表了在某个领域内,规范目标变量属性或行为的成熟定律或理论。相比之下,体验知识指的是从长期观察中提取的已知事实或规则,也可以通过人类推理推断出来。知识可以用各种形式表示和组织。科学知识通常通过数学方程得到严谨的表述。而经验知识通常以较不正式的方式表示,比如逻辑规则、知识图谱或概率依赖关系。不同表示方式的知识通过不同的集成方法与深度学习框架中的数据进行集成。鉴于当前深度学习存在不足,近年来越来越多地关注将既有知识捕获和编码进深度学习。两种主流技术是神经符号积分和基于物理的深度学习。神经符号集成模型侧重于将体验知识编码到传统的符号人工智能(AI)模型中,并将符号模型与深度学习模型整合。基于物理的深度学习侧重于将各种理论物理知识编码到深度学习的不同阶段。当前该领域的综述论文范围有限,主要聚焦于神经符号模型或物理学基础的机器学习方法,忽视了许多相关工作。具体来说,现有关于神经符号模型的综述主要包括逻辑规则或知识图谱及其与深度模型的整合讨论[2]、[3]。然而,现有关于物理知情机器学习的调查仅限于特定科学学科,且整合方法通常为任务特定,例如物理学[4]、[5]、网络物理系统[6]、几何学[7]和化学[8]。因此,这些调查主要聚焦于实验室环境中解决科学问题的方法论,缺乏对现实应用的讨论。为解决这一局限性,我们对现有KADL研究进行了全面且系统的综述。

我们的调查贡献有三方面

1)本综述创建了领域知识的新分类法,涵盖科学知识和体验知识。我们的工作涵盖了现有的专注于特定学科领域知识子集的研究[4]、[5]、[6]、[7]、[8]。

2)本调查涵盖了多种知识表征和整合方法,并采用系统分类。它不同于现有关于通用集成技术的调查,后者对领域知识的分类法持中立态度 [9], [10], [11], [12], [13]。

3)本综述涵盖了不仅用于实验室环境中解决科学问题的方法论,更重要的是,适用于现实世界的应用任务。这项调查不限于特定应用任务,涵盖了从计算机视觉到自然语言处理等多个任务。因此,我们的调查不仅对深度学习研究者具有重要意义,也对不同领域的深度学习从业者具有吸引力。

我们按以下方式组织本次调查。我们首先在第二部分介绍KADL的概念,定义了三项基本任务(即知识识别、知识表示和知识集成)。随后我们回顾了KADL的方法论,根据其关注领域知识对不同技术进行了分类;第三部分是科学知识的深度学习,第四部分是基于体验式知识的深度学习。在每个类别中,我们识别了领域知识及其表示形式,以及提出的知识与数据整合的现有方法。KADL现有方法论概述见表I。此外,我们在附录A的补充材料中深入探讨了KADL与传统机器学习方法的整合。KADL的效果评估见补充材料附录B。最后,我们在补充材料附录C中简要介绍了表达力的概念。

知识增强的深度学习

知识增强深度学习(KADL)的定义

KADL的主要任务包括知识识别、知识表示以及知识向深度模型的整合。接下来,我们将详细介绍每一项主要任务。

1)知识识别:知识识别涉及识别特定任务的领域知识。对于某些任务,领域知识易于获得,因此易于识别;而在另一些任务中,知识则不那么直观,需要领域专家的努力才能识别。在本综述中,我们将领域知识分为科学知识和体验知识。科学知识具有规范性,主要指的是完善的数学理论或物理定律。这些定律通过科学实验得到了广泛验证,并且在普遍环境中成立(例如牛顿定律)。这些定律明确定义了系统中不同变量之间的确定性关系。近期物理驱动机器学习的研究旨在利用不同学科的科学知识来增强深度学习。体验知识是描述性的,主要指日常生活中已知的事实,指示实体的语义属性或多个实体之间的语义关系。体验知识通常来自长期观察,但也可以从成熟的研究或理论中得出。后一种体验式知识以科学为基础,且在语义和抽象层面的描述上具有专注性。体验式知识通常包含大量零散的信息,可能不确定、不精确或含糊不清。神经符号模型的最新研究聚焦于将体验知识嵌入深度学习。为了澄清KADL领域知识的范围,我们将其与文献中常见的概念(如特征和语义)进行对比,如第II-B节讨论的。

2)知识表征:知识表征涉及以良好组织和结构化的形式表示已识别的领域知识。合适的表示方式取决于领域知识的类型。科学知识通常通过方程式来表达。此外,仿真引擎也被视为科学知识的另一种表示方式。与科学知识相比,体验式知识的形式性较低。体验式知识可以通过概率关系、逻辑规则或知识图谱来表示。

3)知识整合:知识整合涉及将领域知识整合到深度模型中。通过集成,深度模型可以利用现有数据集和领域知识来完成特定任务。根据知识类型,可以采用不同的集成方法,并可分为四个层级:数据层级、架构层级、训练层级和决策层级,如图1所示。数据级集成侧重于通过补充基于知识生成的伪数据来增强原始训练数据的整合。架构层集成通过修改神经网络(NN)架构来嵌入知识。训练层整合通过正则化项或主要损失项来规范深度模型的训练,这些项均源自知识。最后,决策层集成结合了先前模型的自上而下预测与深度模型的自下而上预测,前一模型中编码的知识有助于优化深度学习流水线的预测。 每种类型的整合都可能从不同方面带来益处。数据层集成有助于缓解许多深度模型面临的数据稀缺问题 [56], [57], [58], [59]。此外,通过自动仿真生成数据通常比人工注释更方便和便宜。架构层面集成带来了使深度模型可解释和可解释的额外优势,这两者是构建可信人工智能的关键因素[85]。训练层面集成因其简单性而被视为最常见的方法。它可以灵活地应用于不同的深度模型框架。训练层面整合的灵活性也促进了知识不确定性的量化 [45], [53], [54], [55]。决策层集成不同于前三种方法,采用独立于深度模型训练的知识,现有研究中相对少有深入探讨。集成方法的选择既取决于任务,也可以依赖知识。如果知识需要以艰难的方式整合,则更倾向于采用架构层面的集成。其余三种集成方法(即数据层、训练层或决策层)以软的方式将知识引入深度学习流水线。其次,如果知识仅涉及目标变量(即神经网络的预测),则更倾向于采用训练级整合。为了执行另外三种整合类型,知识应涉及测量(如中间变量或观测值)和目标变量。最后,如果所识别的知识是高度非线性和复杂的关系,那么利用成熟的引擎或模拟器进行数据层积分将是首选。

图1。整合分为四个层级:数据层级、架构层级、训练层级和决策层级。

KADL:特征、语义与知识

目前,已有大量努力将额外信息与深度学习结合起来。我们考察了流行的概念(即“特征”和“语义”),并将其与KADL语境中的“知识”概念进行对比。特征通常是可以提取并用于机器学习模型的数据属性或特征[86]。特征工程涵盖了获取这些输入特征的过程,通常借助领域知识。例如,手工制作的特征如尺度不变特征变换(SIFT)[87]或词袋(BoW)特征[88]已被应用于计算机视觉领域。SIFT特征的设计灵感来自生物视觉,考虑了多种不变性质。这些特性能为提升深度学习模型的性能提供宝贵见解[89]。在KADL的语境中,特征代表了编码领域知识的一种隐式方式。具有集成领域知识的深度模型可以自动学习或提取鲁棒特征[90]。需要注意的是,虽然领域知识在特征工程中起作用,但本调查的主要目标并非推动特征工程技术的发展。语义指的是与数据或其属性相关的含义或关系,例如本体论。语义增强深度学习方法整合了语义,能够为深度学习模型提供更丰富的背景,以利用并提升性能[91]。语义增强深度学习是KADL的一个子集,因为语义知识是体验式知识的重要组成部分。在KADL的语境中,语义学涉及捕捉对象或变量之间关系的更高层次理解。这可以包括不同特征或实体之间的关联信息。语义可以表示为知识图[92]或贝叶斯网络[93]。详细讨论见第四节A部分。最后,在KADL的语境中,知识主要指的是超越原始数据、基本特征或语义的更高层次洞察。本次调查研究的大部分知识是基于目标变量定义的。这些知识可以来自独立于评估数据集的不同来源,包括领域专业知识和人为洞察。它通常涉及捕捉目标变量之间复杂的关系和模式,这些关系可能仅凭数据难以显现。

科学知识的深度学习

深度学习模型在传统上由机械模型(如第一原理)模型主导的先进科学和工程领域中日益重要。这些模型对于那些机制尚未被专家充分理解,或精确解在计算上不可行的问题中,能产生特别有前景的表现。然而,现有的深度学习需要大量注释数据,且对新数据或环境的推广能力较差。研究界越来越一致地认为,将科学和工程中的传统方法与现有的数据驱动深度模型结合起来。基于科学知识的深度学习探索了经典机制模型与现代深度模型之间的连续性。机器学习领域越来越多地努力将科学知识融入深度学习(也称为物理知情机器学习),以生成物理上一致且可解释的预测,并减少对数据的依赖。接下来,我们首先确定科学知识的类型及其表征。随后,我们介绍了将科学知识与深度模型整合的不同方法论。

科学知识的定义

科学知识指的是经过广泛科学实验验证并在普遍环境中成立的完善数学或物理方程(例如牛顿定律)。这些定律明确定义了系统中不同对象之间的确定性且精确的关系。当前基于物理的深度学习旨在探索经典力学模型的应用。对于动力系统,最广泛被认可的科学知识是牛顿力学,包括运动学和动力学。前者指的是可观测的运动(如运动轨迹),通常用多项式方程表示。涉及可测量的属性(例如速度、加速度或位置)。运动学研究运动时不考虑原因。相比之下,动力学研究运动的原因,利用偏微分方程(PDE)来捕捉力与可测量性质之间的关系。现有研究探讨了动力学在各种物理系统中的应用(例如气体和流体动力学[94]、蛋白质分子动力学[95]、[96]以及面部生物力学[97])。通过对动力学的理解,运动学的预测可以更好。因此,牛顿力学已被应用于现实应用,如人体行为分析[29]、[98]、[99]。不幸的是,牛顿力学可能导致运动方程难以求解,即使是看似简单的系统(例如双摆系统)。可以考虑拉格朗日力学或哈密顿力学。作为牛顿力学的重新表述,拉格朗日力学和哈密顿力学都利用广义坐标,使其在理解系统时使用哪些坐标具有灵活性。在拉格朗日力学中,L 定义为系统的动能 T 与势能 U 之差(即 L = T − U)。哈密顿量 H 类似于拉格朗日量 L,定义为系统动能 T 和势能 U 的求和(即 H = T + U)。在拉格朗日力学中,位置 x ̇ 的时间导数被视为广义动量,而在哈密顿力学中,动量 p 被考虑。对于简单的粒子系统,这种差异是微不足道的,而在更复杂的系统(如磁场)中,动量已无法仅仅作为质量和速度的乘积计算。拉格朗日系统和哈密顿系统中的动态方程在保守力下都守恒能量。对称性在物理学中也被广泛研究。安德森[100]著名地论证:“说物理学是对称性的研究,多少有些夸大了。”发现对称性已被证明对深化物理理解和增强机器学习算法的重要性。等变或不变函数保持对称性,常被用来将这些对称性纳入深度学习算法。光学,另一种物理知识类型,也被考虑过。光学研究光的行为和性质。费马原理[101]是光学的基本定律。此外,照明模型[102]和渲染方程[103]捕捉了三维物体的外观及其图像外观。现有研究探讨了在不同计算机视觉任务[104]、[105]和计算机图形任务[106]、[107]、[108]中使用各种照明模型。除了物理知识外,还考虑了数学理论,如现有算法的定理(如排序或排序),以及连续松弛[109]。射影几何理论[110]被广泛应用于各种计算机视觉任务。

科学知识的表示

科学知识通常以方程表示,如微分方程。另一个重要因素科学知识的代表工具是模拟。仿真模拟现实世界的物理系统,被视为支配现实世界物理系统的物理原理的替代表现。我们在图2中可视化了科学知识及其表征的分类法。

图2。科学知识的分类及其表征。

1)数学方程:方程可以包括多项式方程、微分方程和积分方程,其中微分方程已被现有研究广泛探讨。动态定律通常用偏微分方程表示,表明不同变量之间的确定性关系。一般来说,偏微分方程的形式为

其中x = {x1, x2, . . . , xN }是系统中涉及的N个变量。Nx 是一般微分算子,Bx 是边界条件算符。D 表示物理域,0 = ∂ D 代表域的边界。λ(x) 表示偏微分方程中涉及的物理参数。对于简单系统,物理参数是常数(即λ(x) = λ)。f(x)是一个强迫项,b(x)指定边界条件,例如达西流问题的狄利克雷边界条件[54]。u(x) 是给定边界条件下的微分方程解。当只有一个变量时,方程变成常微分方程(ODE)。当微分方程中存在项(例如物理参数λ)并经历随机过程时,这些方程就变成了随机微分方程(SDE)。SDE的一般形式类似于标准微分方程,但随机事件ω不同

物理参数λ(x; ω)和强迫项f(x; ω)被建模为随机过程,因此解u(x; ω)遵循由f和λ指定的随机过程。微分方程描述了当我们显式地将其中一个变量对应于时间t时,系统随时间的演变,这在不同的动态系统中很常见。例如,欧拉-拉格朗日方程定义了拉格朗日系统的动力学:

它连接了拉格朗日L关于广义坐标x、时间t和广义动量x的导数。微分方程已被现有研究广泛探讨,如牛顿第二定律[16]、[34]、气体和流体动力学中的伯格斯方程[94]、哈密顿动力学中的汉密顿方程[25]、拉格朗日动力学的欧拉-拉格朗日方程[111]以及描述用于大气对流的非线性混沌系统的洛伦兹方程[112]。光的定律也可以用方程来表示。费马原理考虑光程上的积分。在[106]中,瞬态成像系统中的瞬态I通过积分被描述为

其中τ是行进路径长度,v是可见点。A( p, q) 测量表面的单位面积,函数 f 吸收反射和阴影。以积分方程表示的渲染方程也被考虑过[113]。等式代数方程也被考虑过。根据反射定律,带有反射的图像I是玻璃反射后场景Rˆ和透射前景Tˆ的和,即,

这种等式代数方程已被证明在反射去除任务中非常有用[107]。另一个例子是马卢斯定律,以代数方程表示,定义了极化的效应[108]。

2)仿真引擎:除了用方程明确表示物理定律外,通过引擎进行仿真也是另一种表示方式。仿真模拟了由物理定律支配的真实物理系统,因此被视为知识的替代表征。物理引擎主要编码物理系统的支配动力学定律,如刚体、软体和流体。它通过求解运动方程来计算物体的加速度、速度和位移。具体来说,物理引擎在特定原因下模拟可观测的运动学,遵循支配的动力学规则。为了模拟刚体物体在特定力下的运动序列,考虑物理引擎 [36], [61], [62], [114], [115], [116]。大多数模拟器是不可微分的,因此被禁止用于端到端的深度学习框架。还有用于机器人操作的运动学定律的仿真引擎。然而,这些逆引擎通过运动学方程估计控制作用,使得能够达到期望的位置,且不受底层动力学定律影响[35]。图形引擎也被探索过。图形引擎编码了原则投影和照明模型,并通过遵循主导原则实现逼真的二维观测。例如,提出了一种受反射定律支配的引擎,用于生成忠实的图像渲染[107]。

将科学知识整合进深度学习模型

为了将领域特定的科学知识整合进深度模型,现有方法可分为三类:数据集成、架构集成和训练层集成,如图1所示。决策层面的整合很少被纳入科学知识的考量。以下我们将回顾利用这些方法将科学知识整合进深度模型的方法。

1)数据级集成:利用领域知识的一种方法是用从传统机制模型合成的数据训练深度模型。基于物理的机械模型捕捉领域知识,作为模拟器,用于生成综合数据。模拟数据可以与真实数据结合,共同训练模型,或通过自监督学习独立用于预训练模型。模拟数据已被广泛用于整个训练,无需额外的真实训练数据。在计算机视觉领域,Mottaghi等人[62]提出通过预测查询对象在三维空间中的长期运动作为对力的响应来理解作用于一个查询对象的力,前提是给定一张静态的二维图像。其程序概述见图3。

图3。通过仿真理解二维图像的物理学[62]。游戏引擎将场景配置作为输入,生成共66个牛顿场景,作为现实物理世界的抽象。牛顿神经网络通过将静态图像分类为66种牛顿情景之一来学习理解物理。

Blender1 游戏引擎,由一个物理而用于模拟的则采用图形引擎。具体来说,物理引擎将场景配置作为输入(例如,一个球在滑动中滑动),并根据牛顿第二定律推导的运动方程向前模拟场景,从而产生不同的牛顿场景。物理参数(例如力的大小)被随机采样。对于每个牛顿场景,图形引擎会在不同视角下通过透视投影渲染合成三维世界的二维视频。总共使用了66个合成视频,对应12种可能的物理生成场景。同样,为了更好地理解人类与二维视频中物体的互动,Ehsani 等人[61]提出了通过推断接触点与视频中的力来理解动作的物理理解。在观察到的视频基础上,应用前向物理仿真来监督力估计,而无需为力贴上地面真实(GT)标签。特别地,运动物体的三维接触点通过受牛顿第二定律支配的物理仿真,在一定时间内估计出力。然后应用投影算子,将估计的三维关键点转换为二维空间。通过最小化估计与观测到的二维接触点随时间变化的差值,可以获得物理上一致的力。为了进行可微物理仿真,采用有限差分法进行梯度计算,PyBullet2模拟器专注于遵循牛顿第二定律的刚体仿真。同样,Tobin等人[63]展示了机器人仿真生成的合成样本在训练深度模型以进行物体定位任务的有效性,这在机器人操作中至关重要。模拟通过使用 MuJoCo 物理引擎进行,3 基于其内置图形引擎生成模拟的二维图像[117]。特别是,MuJoCo物理引擎基于牛顿力学构建。内置的图形引擎通过透视投影,在3D虚拟环境中根据选定的摄像机渲染2D图像。为确保模拟变异性充足,提出了一种域随机化策略,即模拟参数(如物体的位置和方向)在模拟过程中全部随机指定。深度模型训练通常从预训练阶段开始,随后进行微调。现有研究还表明,预训练会影响深度模型的最终性能,主要是因为预训练不佳可能导致模型锚定在局部最优状态。通过模拟数据进行预训练已被证明有助于提升参数初始化。Jia 等人 [56]、[57] 引入了物理引导的循环神经网络(PGRNN)来模拟湖泊温度动态。PGRNN在基于物理的机械模拟器生成的合成数据上进行预训练,随后通过部分观测数据进行微调。模拟器通过偏微分方程模拟湖泊温度动态,作为物理参数(如水质透明度和风挡)的函数。研究表明,即使是用不完美的物理系统生成的合成数据参数,PGRNN依然能取得竞争性表现。这一理念也在工程学科中被探讨过。在机器人学领域,Bousmalis等人[58]证明,通过物理引导初始化,准确抓取物体所需的观测数据显著减少了50倍。在自动驾驶领域,Shah 等人[59]预训练了驾驶算法,使用由基于嵌入物理定律的游戏引擎的模拟器生成的合成样本。特别是,模拟器包含车辆模型和物理引擎。为了描述虚拟三维环境,物理参数如重力、空气密度、气压和磁场需手动指定。利用这些指定参数,物理引擎根据牛顿第二定律推导的运动方程,预测从车辆模型中估算的力和力矩的运动学态。这项工作表明,通过对模拟样本进行预训练,驱动算法的数据需求可以大幅降低。除了通过物理引擎模拟增强数据外,还可以从数学方程生成合成数据[14]。

2)架构层集成:领域知识也可以通过定制的神经网络架构设计来整合。架构级集成可以通过以下方式实现:1)引入特定的物理有意义变量或神经网络参数;2)引入基于领域知识的层;3)引入神经元间的物理连接。我们将在以下内容中介绍每种方法类型。 a)通过变量或参数进行整合:将物理原理嵌入神经网络架构的一种方式是引入具有物理意义的变量。变量可以是神经网络的输出节点。强制能量守恒的哈密顿泛函引起了广泛关注[24]、[25]、[30]、[31]。物理学中,哈密顿算符是建模具有守恒量的动力系统的主要工具。在哈密顿力学中,经典物理系统由广义坐标q和共轭动量p描述。哈密顿量H随后计算系统的总能量。定义系统动力学的哈密顿方程如下:

受哈密顿力学启发,提出了哈密顿NN(HNN),其中输出代表哈密顿动力学,通过该动力学明确执行能量守恒[24]。传统神经网络和HNN之间的区别易于理解,如图4所示。

图4。常规(a)神经网络与(b)HNN的比较。对于动态建模,HNN不直接预测轨迹,而是预测系统的哈密顿量H,通过该H在能量守恒约束下获得轨迹。

传统神经网络学习预测粒子轨迹,而HNN学习粒子的哈密顿量,从而预测轨迹。Choudhary 等人[25]后来证明,HNN可以通过强制总能量守恒,更好地处理混沌系统中的高度非线性动力学。为了展示哈密顿形式主义的实际重要性,哈密顿泛函被纳入生成网络中,哈密顿动力学是从二维观测中学习的,且域坐标假设,如图像。提出的哈密顿生成网络已被应用于密度估计,导致了神经哈密顿流[24]。通过利用哈密顿形式主义,总概率可以轻松守恒,同时密度建模保持表达性。与HNNs共享类似思想,拉格朗日NN(LNN)[32]、[33]中探讨了利用拉格朗日力学的广义能量守恒,LNN的输出即为拉格朗日动力学。然而,对所有这些现有模型的评估仍处于概念阶段,缺乏实际应用[38]。变量也可以是神经网络中的中间变量。Jaques 等人[16] 提出了一种潜在动力学学习框架,称为牛顿变分自编码器(NewtonianVAE)。受牛顿第二定律启发,定义了隐空间中的线性动力系统,具体方法包括考虑一个具有D自由度的刚体系统,并用一组坐标x∈R D来建模该系统的配置。其动力学定义为

其中u为给定的执行。为了将上述动态方程纳入变分自编码器(VAE),位置 x 被视为随机变量,速度 v 为中间变量。具体来说,速度计算为vt = ((x − xt−1)/1t),时间间隔为1t。给定ut的条件分布xt现在变为:

其中A、B和C通过神经网络f进行估计,f的输入由当前系统状态组成(即{xt, vt , ut})。牛顿VAE随后输出给估计x的二维图像。这与现有方法形成对比,后者仅假设p(xt |xt−1, ut−1)上的高斯分布,而不考虑位置、力和速度之间的确定性关系,如(8)所示。同样,为了纳入由平流-扩散偏微分方程控制的输运动力学物理原理,刘等人[15]提出了一个基于自编码器的学习框架,明确包含了对流-扩散方程。编码器输出的两个隐藏变量在对流-扩散方程中,分别表示速度场和扩散场,具有物理意义。为了模拟湖泊温度,Daw 等人[17]引入了一个物理意义的中间变量,用于提出的保持单调性的长短期记忆(LSTM)架构。具体来说,作为LSTM的中间变量,密度值被强制要求随着深度增加单调增加,这是湖泊温度的关键特征。类似的思想也应用于模拟运动流体中每个粒子所受的阻力[18]。Muralidhar 等人[18]提出了一种 PhyNet,将物理约束的中间变量引入卷积 NN(CNN)架构中。具体来说,引入了两个中间变量,分别表征速度场和压力场,用于CNN的阻力预测。除了引入物理意义的变量外,另一种方法是将部分神经网络参数直接映射到物理意义的参数。这些物理参数可以在训练中不可修改,也可以通过观察数据进行微调。在地球物理学中,神经网络被考虑用于模拟地震波形反演的动态过程[23]。为模拟地震波传播,提出了理论引导的回归神经网络(RNN);RNN专门设计用于求解控制微分方程,其中部分参数被分配为控制物理方程中的物理参数。特别地,给定在时域中离散化的波动方程,下一个时间步的波场[即u(t + 1t)]的波场是基于两个前一个时间步[即u(t)和u(t − 1t)] 计算为:

其中∇2是空间拉普拉斯算符,r代表位置,s是源函数。在给定 u(r, t) 和 you(r, t − 1t) 的情况下,u(r, t + 1t) 的符号计算直接通过神经网络实现,其可训练参数对应于波动方程(9)中的物理参数 v21t²。

b) 网络层整合:通常通过神经网络层整合的最典型知识类型涉及对称性。对称性通常指一组可逆变换 g,如平移、旋转或缩放。等变性和不变性作为代表性的对称类型已被广泛考虑。不变函数是一种映射,使得输出空间不受输入空间中的对称变换影响,而等变函数则使不变函数松弛。它描述了一个映射,使得输入空间中的对称性可以在输出空间中保持。数学上,假设一个对称变换 g 和一个从 X 映射到 Y 的函数 F。如果 F(g · x) = g · ,则称 F 等变于 gF(x)。输入空间X上的对称变换g保持在输出空间Y上。如果 F(g · x) = F(x) = F(x),则称 F 是不变量的。换句话说,输出y = F(x)不受对称变换g的影响,g作用于输入空间,X 。不变性可以是等变性的特例,反之亦然。例如,变换g是一个识别的变换,g·F(x) = F(x)

等变或不变的 NN 旨在保持对称性。在计算机视觉中探索了照明的不变性特征[47],其中将知识引导卷积层集成到现有深度模型中。考虑昼夜域适应问题,光源域到目标域的照明变化会导致分布发生偏移。为了解决分布偏移问题,我们希望获得对照明不变的特征,这可以从Kubelka–Munk理论中推导出来。库贝尔卡–蒙克理论[118]通过定义物体在观察方向反射的光谱来模拟物质反射。Kubelka–Munk理论定义的照明不变特征的计算直接通过所提出的颜色不变卷积(CIConv)层实现,如图5所示。

图5。用于照明不变特征的物理图层(红色标记)[47]。新层根据给定的输入图像提取照明不变特征,并基于Kubelka–Munk理论进行定制,称为CIConv层。

同样,在湍流建模中,旋转不变性指出流体流动的物理不依赖于观察者坐标的方向,是基本的物理原理。为了将旋转不变性嵌入神经网络,Ling等人[41]定义了一个张量基NN(TBNN),其中通过添加更高阶乘法层对NN架构进行了修改。特别地,TBNN有一个额外的输入层接受张量基,其最后一个隐藏层使用该张量基输入层进行两两乘法,作为输出。修改后的架构确保预测基于旋转不变的张量基底。通过引入旋转不变性,TBNN在预测归一化后的雷诺应力各向异性张量方面实现了更高的准确性。在分子动力学的应用中,Anderson等人[46]提出了一种旋转不变神经网络,名为鸬鹚,通过该网络学习复杂多体物理系统的行为和性质。鸬鹚中的每个神经元明确对应一个原子子集。给定指定的神经元,激活层被保证与旋转协变,从而保证拟议的鸬鹚在旋转上保持不变。等变性也被探讨过。Wang 等人[39]证明,现有的时空深度模型通过等变功能引入对称性,可以提升泛化能力。更具体地说,他们考虑了四种等变性类型:时间和空间平移等差、旋转等差、均匀运动等差和尺度等差。这些对称性通过定制技术被整合进神经网络等变层。通过层等变函数的复合,网络变得等变。然而,在现实物理世界中,对称性可能变得脆弱。例如,一个小的微扰很容易导致动力系统的不连续跃迁,或破坏摆钟系统的旋转对称性。小扰动常常发生,这些扰动随着时间累积可能导致显著差异。因此,通过定制层强制等变性作为硬归纳偏置可能会带来问题。为解决这一问题,Finzi 等人[40]最近提出了一种软性方法来施加等变性约束,即所提出的神经网络架构由限制层和柔性层的混合组成。限制层是严格约束的,而柔性层则是不受约束的。通过两种层的混合,引入了等变性,作为一种灵活的归纳偏置。 c) 通过连通性进行积分:鉴于物体间的物理依赖关系,神经网络神经元之间的连接性可以手动指定。为了模拟涉及多个物体的动力学,采用物理上合理的相互作用来设计神经网络连通性。神经物理引擎(NPE)是一种结合符号结构与梯度学习的可微物理模拟器,已被提出[48]。与基于机械模型的传统物理引擎不同,NPE作为基于学习的神经网络实现,同时在不同场景中保持可推广性。NPE的发展考虑了物理学在时间和空间上都是马尔可夫的。时间马尔可夫分布允许NPE仅考虑当前步骤的状态来预测系统状态。空间马尔可夫分布使NPE能够将相互作用动力学分解为成对相互作用。NPE由一个符号模型结构组成,模拟对象间的成对交互,实现为神经网络。NPE以二维观测为输入,进行前向动力学以预测未来物体的运动。一项非常类似的工作也独立开发了针对n体相互作用系统[49]。 3)训练层级整合:将科学知识整合进深度模型的最常见技术之一是通过深度模型的训练。特别是,深度模型输出的约束基于科学知识,并用作训练深度模型的正则化项。增强训练目标通常表达为:

其中LTRN(yGT, yPred)表示标准训练损失,基于预测yPred和GT标记yGT。对于分类任务,LTRN(yGT, yPred)通常基于交叉熵损失定义。基于物理的正则化项LPHY(yPred; x)对应于具有可调重要性系数λ的物理约束。当基于物理的约束与输入x无关时,正则化项被简化为LPHY(yPred)。通过LPHY(yPred;x),训练引导到产生具有物理一致性输出的模型。基于物理的正则化计算LPHY(yPred; x)不需要对观测进行注释。因此,允许将无标签数据纳入训练,减少对数据的依赖。基于物理的正则化LPHY(yPred; x)也可直接用于无标签方式训练深度模型。LPHY(yPred; x) 可以是显式的也可以是隐式的,并且可以在不同的深度学习框架中灵活地应用。显式正则化直接定义在基于领域知识的深度模型输出上,而隐式正则化则由嵌入深度学习流水线中的基于物理的模型诱导。以下我们将介绍知识引导模型正则化,基于两个可区分的深度模型框架:判别深度模型和生成深度模型。

a) 判别深度模型的正则化:基于科学知识的模型正则化在判别深度模型中广泛存在。在气候建模的背景下,物理系统应满足的守恒定律所推导出的约束被编码为正则化项。特别地,NN, f , 将输入 x 映射为输出 y(即 y = f (x))。守恒约束C被总结为线性系统(即C = {C [x y ] = 0}),其中C是一个给定的约束矩阵。这些物理约束随后被编码为NN输出上的正则化项

评估结果表明,通过添加这种物理引导正则化,可以提升模拟云过程的预测性能[19]、[20]。同样,Zhang 等人[21]提出通过一个 NN 参数化分子动力学的原子能,其损失函数考虑动能守恒和势能守恒。对于具有非保守力的物理系统,也考虑过正则化[22]。在具有摩擦的双摆系统中,由于摩擦的存在,系统的总能量会减少。能量的减少被表述为约束E(xt+1)<E(xt),其中E(xt)和E(xt+1)分别表示系统在当前时间步和未来时间步的总能量。考虑一个以当前时间步状态(即xt)为输入,输出下一时间步估计状态(即y := xˆ t+1)的神经网络,该约束可以通过正则化项积分到神经网络中,作为:

其中E(xt)和E(y)分别计算系统在当前和下一次时间步的能量。根据能量的递减,E( y) 预期小于 E(xt),这就引出了上述约束。类似地,在[26]中考虑一组动态系统的常见物理属性,其中这些物理属性分别表示为等号或不等式约束。这些基于物理的约束随后通过增强拉格朗日方法被纳入深度模型,作为正则化。偏微分方程(如(1)所述)被广泛认为是约束,并作为正则化项被集成到深度模型中。提出了一种物理基础的NN(PINN)[27],用于利用神经网络求解偏微分方程。PINN 学习解法,u,通过同时使用观测数据和偏微分方程,其中偏微分方程作为归纳偏置。以粘稠的伯格斯方程为例[28]

在PINN中,前馈神经网络通过输入位置x和时间t来预测偏微分方程解u ̃。目标函数由数据丢失项和偏微分方程残差组成

其中Ldata衡量预测偏微分方程解u ̃与给定u在特定位置和时间步的差异(即Ldata = 1∑ Ndata i=1 (u ̃(习 , ti ) − ui )2)。LPDE测量预测解u ̃在位置和时间步的偏微分方程残差

偏导数通过给定预测解u ̃的数值估计器计算。数据点{(xi, ti)}Ndata i=1用于数据丢失,{(x j , t j )}NPDE j=1用于偏微分方程残差,分别收集。λ 是正则化项的系数。在PINN及其变体[119]中,偏微分方程通过测量解残差来直接编码为正则化项,以约束模型参数。在人体姿态估计的背景下,物理力学被用来确保物理上合理的估计,其中以常微分方程表示的欧拉–拉格朗日方程被推导出来,并作为模型正则化的软约束编码。通过将欧拉-拉格朗日方程集成到数据驱动的深度模型中,估计的三维人体姿态得以保证物理上合理[29]。同样,对人体的先验知识被证明在监督三维人体重建方面有效[120]。基于领域知识的物理导向函数已被用于以无标签方式训练深度模型。Stewart和Ermon[34]提出了用物理方程对神经神经网络的无标签监督。本文的目标是通过指定约束g来监督神经网络,这些约束应在输出空间f上成立,而不是使用标签。损失函数随后变为:

其中 R( f) 指的是一个额外的正则化项,惩罚模型复杂度。本文举的一个例子是跟踪一个物体进行自由落体。回归网络的训练被表述为一个结构化预测问题,运行在N张图像序列上(即(RH×W×3)N 和 RN → RN)。牛顿第二引力定律(自由落体运动)以代数方程表示,直接纳入训练中的损失函数。特别地,对于自由落体中的物体,其在第i个时间步(时间间隔为1t)时的高度计算为yi = y0 + v0(i1t) + a(i1t)2,y0和v0分别为初始高度和速度。a = −9.8 m\s² 是物体自由落体时的固定加速度。因此,任何预测轨迹f(x)都应当满足这样的抛物线固定曲率。损耗通过测量拟合残差定义:

a = [a△t2, a(2△t)2, . . . , a(N △t)2],a = −9.8 m\s²。此外,基于成熟算法派生的算法监督已被用于训练神经网络,使得不再需要来自GT注释的直接监督[109]。对于上述所有相关工作,通用知识与数据信息之间的相对重要性由训练目标设计预先确定,训练后不可调整。然而,不同输入的相对重要性可能有所不同。例如,给定一个看不见的输入,基于数据的预测可靠性较低,知识在最终预测中起着更重要的作用。Seo 等人[22]提出了一个框架,通过控制参数α调整通用知识相较于数据信息的相对重要性。控制参数α假设为遵循预定义分布p(α)的随机变量。从输入数据x中提取的两组潜在表示zr和zd分别对应一般知识和数据信息。最终的潜在特征为 z = α zr ⊕ (1 − α)zd,用于生成最终预测 ˆy。Lrules 和 Ldata 两组损失分别基于下游任务的通用知识和注释定义。Lrules作为输入x和输出y的函数,衡量基于针对目标下游任务的特定先验知识推导出规则的违反情况(例如,方程(12))。最终训练损失计算为p(α)上的期望损失,即,

其中ρ是用来平衡两个损失项单位的尺度参数。通过所提框架,α表示相对重要性成为测试中的变量。上述物理引导正则化项均在深度模型的输出空间中明确定义。物理引导正则化项也可以是隐式的(即由嵌入为神经网络流水线中间原语的基于物理的模型诱导)[35]、[36]、[37]。例如,Wu 等人[36]构建了一个无需人工注释即可理解物理场景的系统。系统的核心是一个物理世界的表示,先由感知模块恢复,然后被仿真引擎利用。感知模块是一个深度神经网络,无需注释自监督。该仿真引擎由物理引擎和图形引擎组成,旨在生成物理预测。拟议的管道在合成台球桌实验中进行了评估,如图6所示。

图6。无需人工注释的物理场景理解[36]。物理引擎和图形引擎被连接到感知模型中。通过将渲染的RGB图像与观察到的对齐,感知模型能够在没有注释的情况下捕捉有意义的物体特征。物理引擎和图形引擎所表示的知识被隐式编码进损失函数中。

根据感知模型提取的特征,物理引擎通过运动方程预测系统未来的物理状态,图形引擎则根据预测的物理状态渲染RGB图像。感知模型通过最大化在观测序列下估计的RGB图像概率来学习。

b) 生成式深度模型的正则化:除了判别模型外,知识也被应用于深度生成模型。为了产生切实可行的结果,不同的生成模型探索了领域知识的应用。例如,为了高效使用生成对抗网络(GAN)生成偏微分方程控制的复杂系统解,Wu 等人[44]提出了一种统计约束的GAN,其中推导出一个统计正则化项,分别衡量训练样本与生成样本协方差结构之间的距离,

其中D和G分别代表标准判别器和生成元,L(D, G)代表GAN的标准训练损失。\sum(pdata)和\sum(pG)分别代表训练数据和生成样本分布的协方差结构。d(·) 表示距离测量,如弗罗贝尼乌斯范数。λ 表示正则化项的系数。引入对低维流形的统计约束(即协方差结构)有助于减少在高维中寻找所需解的搜索空间。因此,不仅数据量减少,收敛解所需的训练时间也缩短了,这在求解湍流偏微分方程中得到了证明。在计算材料科学的应用中,Shah等人[43]提出了一个名为InvNet的深度生成模型,通过该模型生成满足所需物理特性的合成结构样本。InvNet是传统GAN的扩展,除了传统的生成器和判别器外,还引入了额外的不变性检查器。不变性检查器作为中间原语引入,基于该基元定义了一个隐含的知识引导正则化项。不变性损耗是基于所提出的不变性检查器定义的,用于测量不变性的违反情况。通过不变性损失,生成的样本被鼓励满足某些不变性(例如模组不变性,在固定位置的所有合成图像中植入预定义的基序)。为了估算人体中的血液酒精浓度,GAN引入了残差增强损失函数以估算酒精的经皮运输[121]。除了以偏微分方程表示的知识外,物理连通性和稳定性也被考虑用于真实的三维形状生成。Mezghanni 等人[42]提出将物理约束纳入深度生成模型,物理约束既捕捉三维分量的连通性,也涵盖三维形状的物理稳定性。然后定义了完全可微的物理损耗项,用于将物理约束集成到神经网络中。具体来说,提出了一种神经稳定性预测器,作为神经网络分类器实现,并用模拟数据预训练,用于强制物理稳定性约束。对于模拟数据中的每个合成三维形状,其稳定性由Bullet物理引擎标记。稳定性约束通过预训练稳定性分类器编码,并通过稳定性损失集成到深度模型中。VAE也被探索与物理整合,用于稳健且可解释的生成建模[51]、[52]。特别是,以偏微分方程表示的物理知识被整合进VAE中。VAE的潜在变量受偏微分方程定义的约束约束。此外,在[50]中,假设偏微分方程仅部分已知,VAE的潜在变量部分基于物理意义,而非完全访问偏微分方程的完整表达式。其余未知偏微分方程则以数据驱动方式建模。利用概率框架,不确定性量化已被考虑用于基于物理的深度模型[45]、[53]、[54]、[55]。Zhu 等人[54]考虑了一种基于物理的CNN求解带有不确定性量化偏微分方程的方法。不确定性源于物理参数λ的随机性,记作随机向量x = {λ1, . . . , λns },其中ns是可能的物理参数设置总数,且可能非常大。相应地,偏微分方程 u 在每个可能的物理参数设置下的解为 y = {u1, u2, . . . , uns }。任务是在一组观测值 Dinput = { x (i ) } N i=1 且 x(i) ∼ p(x) 的情况下,对 pθ (y|x) 进行建模。θ 表示需要学习的 NN 参数。与此同时,偏微分方程解的不确定性通过方差 Var[ y] 来建模。训练NN时,不使用标记数据,而是仅基于偏微分方程及其边界条件定义基于能量模型,由此得到参考密度。特别地,参考密度pβ( y|x)遵循玻尔兹曼–吉布斯分布

其中β是构造能量模型中可学习的参数。能量函数 E( y, x) = VPDE( y, x) + λVboundary( y) 衡量偏微分方程和边界的破坏条件。λ 是一个可调超参数。物理方程被编码进基于能量的概率模型中。最终,通过最小化估计分布与参考分布之间的KL散度来训练NN。

通过训练过程,物理方程被整合进NN中。同样,杨和佩尔迪卡里斯[53]通过考虑(22)的下界简化了目标函数。基于类似思路,Karumuri等人[55]采用了深度残差网络(ResNet)以无标签方式求解椭圆随机偏微分方程。特别地,物理知情损失函数被定义为偏微分方程残差在随机变量概率分布上的期望值。上述三项研究均关注时间无关的物理系统,且无时间演化。Geneva和Zabaras [45]将这一思想扩展到动态系统,利用自回归网络预测未来物理状态,前提是有状态的历史。

经验知识的深度学习

除了科学知识外,体验式知识也被广泛认为是神经符号模型的主要知识来源。体验性知识指的是日常生活中众所周知的事实,描述一个对象的语义属性或多个对象之间的语义关系。它通常具有直观性,是通过长期观察或成熟的研究推导而来的。与科学知识不同,体验式知识虽然广泛可得,但描述性强且不够精确。包含语义信息的体验式知识可以作为深度学习预测任务(如回归或分类任务)的强有力先验知识,尤其是在小数据环境中,单靠训练数据无法捕捉变量间的关系[65]。

经验知识的定义

根据应用领域的不同,经验知识可能表现为两种类型:实体属性和实体关系。实体关系揭示了实体之间的语义关系。它们可以从日常关于被命名实体之间关系的事实推断,也可以从成熟的研究或理论(如解剖学)中推导出来。例如,人体解剖学在人体计算机视觉和面部行为分析中被广泛考虑 [14], [122], [123]。对于面部行为分析,面部解剖知识可能提供面部肌肉间关系的信息,从而产生自然的面部表情。同样,身体解剖学也可能提供关节间关系的信息,以形成稳定且物理上合理的身体姿势和动作。语义关系可以直接给出,也可以从现有语义间接推断出来。例如,从海伦·米伦出演《墨水之心》且海伦·米伦获得最佳女主角奖的事实来看,可以推断《墨水之心》获得了奖项提名。然而,推断事实容易出现错误。实体属性捕捉关于实体属性的知识。它们可以指描述人类感知世界中概念的层级关系的本体信息[124]。例如,雨是由水组成的,而海洋是海洋的同义词。语言知识作为体验知识的重要来源,在[125]和[126]中有分析。大型语言模型被认为是抽象文本推理任务中的归纳偏见[127]。语言知识如文本解释已被探索用于语言模型的精炼[128]。

经验知识的表征因领域而异。一般来说,经验知识的表示包括概率依赖关系、逻辑规则和知识图谱。这些表征既捕捉了经验知识揭示的实体之间的关系和属性。

图7。经验知识及其表示的分类学。

我们在图7中展示了经验知识的分类及其表征。 1)概率依赖关系:由于固有不确定性,对象之间的语义关系广泛通过概率依赖来表示。对象的状态以概率方式建模,即通过概率依赖捕捉对象之间的关系。关系还可以进一步细分为正相关和负相关。让我们以面部动作单元(AU)为例。根据面部动作编码系统(FACS)[129],AU代表面部肌肉,一块面部肌肉可以控制一个或多个AU。如果对应的肌肉被激活,二元AU就可能开启。内眉肌(AU1)和外眉肌(AU2)通常同时出现,因为它们由同一块额肌控制。唇角压低肌(AU15)和唇压肌(AU24)是另一个正相关的例子,因为它们底下的控制肌(分别是口角压下肌和口轮轮肌)总是一起运动。如果两个变量X和Y正相关(例如,X = “AU1”,Y = “AU2”)与X = {0, 1} 和 Y = {0, 1},则有

考虑到负相关,AU12(唇角拉动肌)和AU15(唇角压低肌)不能同时出现,因为它们对应的肌肉(分别是大吻肌和压下口肌)不太可能同时激活。负相关也可以用类似方式表示。如果两个变量X和Y负相关(例如,X = “AU12”,Y = “AU15”)与X = {0, 1} 和 Y = {0, 1},则我们有

2)一阶逻辑与命题逻辑:逻辑可分为一阶逻辑(FOL)和命题逻辑。FOL [130] 运用逻辑规则从现有经验知识推断出新的体验知识;已经被用作推理方法,推导不同类型的知识,例如文本解释[128]。FOL的公式如下:

其中R1(x), R2(x), ... . . , , Rn(x) 表示逻辑原子。每个原子通过谓词捕捉已知对象的性质或关系。这些原子通过连接(例如合取)算符组合,形成逻辑规则中的条件部分。H(x)是隐含的结果或结论。它代表了从逻辑规则中得出的新知识。规则的条件部分和结论部分通过含义算子相连。例如,我们有:

Smokes(x) 是一个原子,Smokes 是谓词,x 是逻辑变量。它捕捉了由变量x表示的人是否吸烟的实体属性知识。咳嗽(x)是隐含的结果或衍生知识,捕捉了该人是否咳嗽的知识。该规则指出,如果条件部分 Smokes(x) 为真,那么 Cough(x) 也为真。

3)知识图谱:知识图谱是另一种经验知识的符号化表示,主要用于捕捉对象之间的语义关系,其中语义知识以三元形式表达:(主语、谓词、宾语)。这类三元组的数量通常非常多。在知识图中,这些三元组被组织成包含节点和边的图。节点代表主体或对象,如动物或地点,以及命名实体,如名叫玛丽·凯利的人。边表示谓词和连接节点对,并描述它们之间的关系。此外,边也可以用节点表示属性的实体属性。以三元组(cat、attribute、paw)为例,节点是cat和claw,关系是attribute。这三重组陈述了一个事实:“猫的属性是爪子。”边缘可以是有向的或无向的,例如动物之间的食物链关系或人们间的社会关系。知识图谱可以编码大量常识、规则和领域知识,捕捉关于实体的语义关系和属性。因此,知识图谱是获取经验知识的重要基础资源。例如,对对象语义意义的体验式知识可以组织成图像分类的知识图谱[131]。Miscrosoft 概念图 [132] 是另一个知识图的例子,其中 Miscrosoft 概念图中的顶点可以表示食物,如水果、哺乳动物(如狗和猫),或设施,如公交和加油站。边表示基于日常事实的概念之间的关系,例如猫是哺乳动物,其中 是猫与哺乳动物之间的关系。

将经验知识整合进深度学习模型

为了将经验知识整合进深度模型,现有方法涵盖了四种类型的集成:数据层级、架构层级、训练层级和决策层级,如图1所示。我们将在接下来介绍每组方法。1)数据层集成:伪训练数据通常被视为包含以概率依赖形式表示的体验知识,用于补充现有训练数据。例如,Teshima 和 Sugiyama [65] 提出将变量间的条件独立关系纳入预测建模。首先从先验知识中提取一组变量间的条件独立关系。训练数据随后通过生成满足提取的条件独立关系的合成数据来补充。除了增强训练数据外,伪数据还可以用于构建先验知识模型。对于面部AU识别,Li等人[64]提出利用基于该知识生成的伪数据构建一个无数据的先验模型,捕捉下游任务目标变量的先验分布。参数和变量的约束首先是从通用的AU知识中推导出来的。随后提出了有效抽样方法,用于生成满足变量和参数的伪数据限制。然后从伪数据中学习贝叶斯网络,作为无数据先验模型。类似的思想也被应用于上半身姿势估计任务[14]。四类约束(即连通性约束、体长约束、运动机能约束和对称约束)首先基于人体解剖知识推导。在这些约束条件下生成合成数据,基于此学习先验概率模型。此外,合成数据也可以由以布尔规则表示的通用知识生成[22]。例如,当第k个输入特征大于常数a(即xk>a)时,j类(即ˆy j)的概率更高。为了将该布尔规则纳入深度模型,Seo 等人[22]提出在每个训练数据点 x 上添加一个配对的扰动 x p = x + δx。δx 是微扰的一个小正值。正则化定义为:

如果xk<a,xp,k>a,根据先验知识,我们应有ˆy j − ˆy p, j < 0。如果约束成立,则有L(x, x p, ˆy j , ˆy p, j ) = 0。否则,L(x, x p, ˆy j , ˆy p, j ) >0。此外,数据增强还可以作为人类日常经验洞察的反映,例如常见的指纹遮挡[133]。

2)架构层集成:描述变量之间关系的领域知识可以通过架构设计整合到深度模型中。我们讨论了基于概率依赖、逻辑规则和知识图谱的体验式知识的架构层集成方法。 a) 架构设计以纳入概率依赖:架构层集成的一种代表性线索聚焦于以概率依赖形式表示的体验知识,即由知识构建的概率模型作为先验模型,并嵌入为神经网络的一层。因此,变量之间的语义关系可以以概率方式被纳入神经网络。通常,概率模型会连接到神经网络的最后一层。通常采用条件随机场(CRF),它将神经网络中的隐藏特征作为输入,输出满足CRF编码知识的最终预测(例如,AU之间[66])。在[67]中,一个完全连接的CRF被连接到CNN的最后一层,以联合执行面部标志检测。通过充分利用全连接的CNN-CRF,可以获得人脸地标位置的概率预测,捕捉地标点之间的结构依赖关系。对于场景图生成[68],首先通过基于能量的概率模型捕捉实体和关系之间的结构化关系。基于能量的概率模型以典型场景图生成模型的输出为输入,并通过最小化能量进行细化。通过概率模型捕获的先验知识也可以被用来定义图卷积网络的邻接矩阵[69]。对于面部AU密度估计任务,采用贝叶斯网络来捕捉AU之间固有的依赖关系。随后提出了一种概率图卷积,其邻接矩阵由贝叶斯网络的结构定义。此外,概率模型也可以作为神经网络中可学习的中间层引入。提出了一种因果VAE[74],即在VAE的潜在空间中引入因果层。因果层本质上描述了一个结构性因果模型。通过因果层,独立的外生因素转变为因果表征学习的因果内生因素。

b)架构设计以整合逻辑规则:通过神经网络架构进行整合是一种传统的神经符号方法,用于将符号逻辑规则整合进深度模型。逻辑规则通过引入逻辑变量或参数集成到神经网络架构中。这种方法可以追溯到1990年代,当时引入了基于知识的人工神经网络(KBANN)[134]和连接主义归纳学习与逻辑编程(CILP)[135]方法。最近,提出了逻辑神经网络[136],其中每个神经元代表逻辑公式中的一个元素,该元素可以是概念(如cat)或逻辑连接词(如和和或)。然而,这些研究重点在于利用神经网络实现可微且可扩展的逻辑推理。很少有研究通过逻辑规则定制深度模型的架构来改进其架构。为了利用逻辑规则提升深度模型性能,逻辑规则被编码到马尔可夫逻辑网络(MLN)中,构建出来的MLN作为先验模型,嵌入到神经网络中作为输出层,以提升知识图完成任务[75]。特别地,首先确定了四种逻辑规则,用于在知识图谱中捕捉知识。

1)合成规则:谓词 Rk 由两个谓词 Ri 和 R j 组成,如果对于任意三个变量 Y1, Y2, Y3,我们有 Ri (Y1, Y2) ∧ R j (Y2, Y2) ⇒ Rk (Y1, Y3) 。

2)逆规则:谓词Ri是R j的逆,如果对任意两个变量Y1和Y2,我们有Ri (Y1, Y2) ⇒ R j (Y2, Y1)。

3)对称规则:谓词 R 是对称的,如果对于任意两个变量 Y1 和 Y2,我们有 R(Y1, Y2) ⇒ R(Y2, Y1)。

4)子集规则:谓词R j是Ri的子集,如果对任意两个变量Y1和Y2,我们有R j(Y1, Y2)⇒Ri(Y2, Y1)。

给定一组已识别的逻辑规则l ∈ L,MLN定义了三元组目标变量y的联合分布为:

其中φl是势能函数,计算出给定观测到的三元组。该MLN随后被连接到深度模型的最后一层,通过深度模型在观察到的三元组下得知置信度分数wl。通过引入MLN,预测缺失三重组的任务被重新表述为推断后验按照编码逻辑规则分布的未见配置。在强化学习中,提出了自组织的神经网络,并集成了符号命题规则[137]。通过有效利用领域知识,所提出的自组织神经网络实现了学习效率的提升和模型复杂度的降低。

c)构建知识图谱的架构设计:知识图谱也可以作为一层整合进神经网络架构中。梁等人[78]提出了带有符号推理的图卷积。知识图谱的先验知识通过提出的符号图推理(SGR)层被具体整合进神经网络,如图8所示。

图8。图片取自[78]。当前卷积层中的节点首先被映射到符号节点。符号节点之间的连接性基于知识图谱定义。通过基于知识图的图推理,最终将演化后的符号节点映射到下一卷积层的节点。

为了使拟议的 SGR 与卷积层合作,首先将当前卷积层的局部隐藏特征转移到 SGR 中对应符号节点的特征上。SGR中符号节点之间的连接性基于知识图谱的先验知识定义。基于先验知识,SGR随后进行图推理并更新功能。最后,更新后的特征映射到下一卷积层的局部特征上。为了在跨视觉领域和文本领域以无监督方式生成医疗报告,提出了一种知识驱动编码器-解码器模型,以利用知识图谱[79]。知识图谱被编码进编码器内的知识驱动注意力模块中。编码器先通过标准深度模型分别获取图像嵌入和报告嵌入。随后引入了注意力机制,其中嵌入即查询,知识图基于定义查找矩阵。注意力模块所学到的表征通过知识图谱连接了视觉与文本领域。在训练过程中,通过在文本领域中最小化生成的医疗报告与观察到的医疗报告之间的重建误差来学习所提出的模型。在测试过程中,知识驱动编码器-解码器模型可利用知识图谱中的经验知识,从医学图像生成医学报告,这些知识图谱适用于视觉和文本领域。CRF已被用来捕捉经验知识,并作为神经网络的一层被整合。Luo等人[80]提出了一种情境感知零分点识别(CA-ZSL)方法。先验对象间关系从知识图中提取,并用CRF编码。

对于包含N个对象的图像,每个对象的图像区域和类分配分别记为Bi和ci,i=1,2,......,N。CRF模型定义为

其中一元势 θ (ci |Bi )是根据每个对象相应提取的特征估计的。两对势能 φ(ci, c j |Bi, B j )是利用提取特征和知识图谱共同估计的。从知识图谱中提取的语义关系编码在两对势函数中,其中γ是一个可调的超参数。神经网络的训练方式是最大化对数似然。在测试过程中,未见对象的标签会通过学习后的CRF模型中最大后验(MAP)推断,以上下文感知方式推断出来。 3)培训层面整合:经验知识被视为指导深度模型训练的先验偏见。约束基于知识获得,并作为正则化项整合进深度模型[77]、[124]、[138]、[139]。正则化可以从概率依赖、逻辑规则或知识图中推导出来,我们在后续段落中进一步讨论。 a)带有概率依赖的正则化:基于语义关系知识得出的概率依赖通常通过正则化集成到深度模型中。Kancheti 等人[70]在训练过程中考虑了正则化神经网络的因果域先验,通过正则化强制要求神经网络中学到的因果效应与先前因果关系知识相匹配。考虑一个有 d 输入和 C 输出的 NN f,对于第 j 个输入,δG j 是一个包含先验因果知识(以梯度表示)的 C ×d 矩阵。为了强制f与先验知识一致,定义了正则化

其中 M 是一个 C × d 个二进制矩阵,表示先验知识的可用性,N 是训练样本的总数。∇ j f 是 f 关于第 j 个输入的 C × d 雅可比矩阵。ε表示可接受的误差范围,⊙ 是元素乘积。同样,Rieger等人[71]提出通过解释丢失惩罚与先前知识不符的模型解释。对于AU检测任务,AU之间的概率关系基于面部解剖知识。这些概率关系中的每一个都被表述为一个约束。在[72]中,相应定义了一个衡量满足这些约束的损失函数,用于学习AU探测器。不同地,Cui 等人[73]提出学习贝叶斯网络,以紧凑地捕捉大量AU关系约束。随后,BN用于构建预期的交叉熵损失,以训练深层NN用于AU检测。

b) 带逻辑规则的正则化:逻辑知识被编码为模型正则化的约束。通过正则化,如果深度模型的输出违反了逻辑规则导出的约束,则会受到惩罚。Xu等人[76]提出将命题逻辑的自动推理技术与现有的深度模型结合起来。命题逻辑通过所提出的语义丢失编码在损失函数中。命题逻辑中α的句子定义在变量 X = {X1, . . . , Xn} 上。句子是对神经网络输出施加的语义约束。假设p是一个概率向量,其中每个元素pi表示变量习的预测概率,对应神经网络的单一输出。语义丢失Ls(α, p)衡量给定p时α的违反情况,表示为

x |H α表示状态 x 满足句子 α。状态满足句子的概率越大,语义丢失越小。所提出的语义损失将神经网络正则化与逻辑推理相结合。它适用于不同的应用,如分类和优先排序。对于关系预测任务,提出了一个带有语义正则化的逻辑嵌入网络(LENSR)[77],其中将命题逻辑集成到关系检测模型中。对于给定图像,首先使用标准的视觉关系检测模型估计关系谓词的概率分布。然后基于预定义的命题逻辑公式,给定输入图像,提出关系谓词的另一种概率分布。最后,定义了语义正则化,通过最小化这两个概率分布的差异来对齐它们。 c)知识图谱的正则化:知识图谱是体验知识的图形表示,也被用于模型正则化。Fang 等人[81]提出从知识图中提取语义一致性约束,这些约束被用作正则化项。具体来说,通过随机游走并重启,计算了一对对象O与主体S之间的一致性分数

其中 C ∈ R|O|×|S|。|O|以及|S|表示目标对象和目标主体的总数。T 是总移动步数,α 是重启概率,意味着在每移动一步,都有α从起始节点重新开始的概率,而不是移动到节点的邻居之一。计算出的矩阵C被用作语义一致性的约束,并用于对象检测任务中对神经网络进行正则化。同样,Gu 等人[82]提出从数据中心提取外部知识,并应用图像重建来改进场景图生成,尤其是在数据集有偏见或注释噪声或缺失时。对象关系作为外部领域知识从 ConceptNet 检索,并通过对象到图像生成分支应用于细化对象特征。对象-图像生成分支基于对象重建图像特征以及对对象的先验关系知识。通过最小化重建误差,可以学习语义上有意义的对象特征。 4)决策层集成:深度模型和先验知识的预测可以通过联合的自上而下和自下而上预测策略直接结合。通过整合两组预测,最终预测可以更准确、更稳健。对于基于知识的开放领域视觉问答,Marino 等人[83]结合了隐性知识和符号性知识。隐性知识指的是从数据(例如原始文本)中学习到的知识。符号知识指的是编码在现有知识图谱中的基于图的知识(例如,ConceptNet [140])。提出的KRISP模型包含两个子模块:隐式知识推理和显式知识推理。然后结合两种知识来源,采用晚聚变策略生成最终输出。通过晚融合策略,数据预测和符号知识直接结合,独立于深度模型的训练。通过遵循贝叶斯规则,可以以概率方式组合两组预测。为了获得基于知识的概率预测,采用捕捉先验知识的概率图模型(PGM)作为先验模型,并通过概率推断获得预测。对于AU识别任务,Li等人[64]考虑了自上而下和自下而上的积分,其中从通用知识中学习的贝叶斯网络作为自上而下模型,数据驱动模型作为自下而上模型。然后利用贝叶斯定律将两个模型的预测合并,生成最终预测。基于知识的概率预测也可以直接基于知识进行定义。对于知识图完成任务,Cui 等人[84]基于类型信息推导出关系的先验分布。然后,先验分布与现有基于嵌入模型的自下而上预测结合,采用贝叶斯定律进行最终预测。

讨论及KADL的未来方向

为了帮助读者更好地理解并应用KADL于他们的工作中,我们提供了基于现有作品摘要的规范树(见表I)。

图9。KADL上的处方树。

如图9所示的处方树,作为一个包含不同路径的方案,将特定类型的先验知识融入深度模型。每条路径都包含特定的知识类型、知识表示格式和知识整合方法,并附有相关作品的参考。尽管如此,现有方法仍存在若干不足。接下来,我们将讨论现有技术,并强调未来值得追求的有前景方向。 a)多样化的知识类型:现有的知识增强深度模型探索了不同类型的领域知识,包括科学知识和体验性知识。然而,大部分探讨的知识是物理学中的科学知识,并以符号方式表示体经验知识。将成熟的算法知识注入深度模型已开始吸引研究人员的关注,即深度模型通过算法监督而非GT注释进行训练[109]。此外,现有方法通常局限于某一特定类型的知识。对于某个应用任务,科学知识和体验知识可以同时存在于多个来源。因此,可以将多种类型的知识结合起来,以提升深度模型的性能。 b)有效的知识整合:现有的集成方法利用合成数据、模型架构设计、正则化函数或预测优化。其中,大多数集成方法是在培训过程中进行的。因此,现有的积分技术高度依赖于特定的训练程序,通过该程序,深度模型通过共同考虑两个信息来源来训练,而不明确区分数据与知识。这个问题可以通过决策层融合来解决。使用先验模型捕捉领域知识的决策级知识整合方案则相对较少受到关注。将知识与先前模型整合,结合自上而下的知识预测和数据的自下而上估计,在多个方面可能有益处。首先,先验模型的构建独立于深度模型,深度模型是通过可观测数据初始化的。由于前者模型和深度模型独立于积分过程构建,自上而下和自下而上的积分过程可以灵活地应用于任何深度模型和先前模型。其次,知识整合是通过原则性地遵循贝叶斯定律来实现的。基于知识的数据预测的精炼变得易于处理和可解释。 c) 混合整合方法:现有方法倾向于将科学知识与体验知识分开整合。此外,他们通常采用一种特定的方法来进行知识整合。对于某些应用领域,这两种知识可能同时存在。因此,它们应联合集成,以进一步提升深度模型的性能。此外,用户始终需要选择集成方式。没有适用于所有类型知识的通用整合方案,如何以最佳方式自动将知识与数据整合,仍是一个开放的问题。因此,鉴于不同积分方法的互补性,同时采用不同的积分方法以发挥各自优势可能更为有益。 d)知识与不确定性的整合:现有研究探索了以概率方式编码体验知识的方法,比如利用PGM捕捉不确定关系。然而,总体而言,现有的知识集成方法属于确定性方法,忽视了潜在的知识不确定性及其对深度模型学习和推理的影响。不确定性不仅存在于经验知识中,也存在于科学知识中。例如,在物理学中,不确定性源于随机的物理参数、未知的物理参数或不完整的观测。现有相关研究旨在衡量支配物理系统的偏微分方程解的质量,因此受特定领域假设的影响。概率工具,如PGMs,在捕捉体验知识的不确定性方面非常强大。然而,很少有研究探讨PGM在科学定律不确定性建模中的应用[141]、[142]。深度学习界仍面临一个开放的问题,如何有效且系统地建模科学知识中的不确定性以应用于现实世界的应用任务。e) KADL评估:我们已审查补充材料附录B中的绩效评估。尽管有大量研究致力于展示KADL在提升准确性、数据效率和泛化能力方面的有效性,但其评估仍限于具体应用的具体情况。此外,缺乏统一的评估来理解不同知识整合方法的优势。在实现领域知识集成在不同应用中更广泛影响的统一视角方面,存在一个差距。未来需要努力开发超越具体应用的一致且通用的评估方法。这些努力对于揭示KADL在各领域变革性影响的整体视角至关重要。

总结

在本次调查中,我们回顾了KADL的传统和主流技术,包括知识识别、知识表示和集成。我们将知识分为两类:科学知识和经验知识。在每个类别中,我们引入了知识识别、表征以及深度学习的整合。我们进一步审查了现有作品的评价。如前所述,已有大量工作致力于利用相关先验知识改进深度学习,以生成数据高效、可推广且可解释的深度学习模型。本调查存在一定局限性。首先,调查聚焦深度学习模型,因此忽视了对其他可能在更广泛知识增强领域具有相关意义的机器学习范式或方法的探索。此外,调查重点主要集中在独立于数据集获得的知识上,排除了利用数据驱动方法的研究获取知识(例如,[143],[144])。此外,值得注意的是,本调查并未广泛涵盖特征工程的领域知识,因为本调查的主要重点并非推进特征设计。尽管存在这些局限性,本调查致力于在其定义范围内对KADL提供全面的概述,作为理解领域知识与深度学习模型协同效应的基础资源。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐