今天学习一篇发表在中科院一区期刊《ACM Computing Surveys》的综述文章《Graph Neural Networks for Tabular Data Learning: A Survey with Taxonomy & Directions》,该刊主要刊载计算机理论方法领域的系统性综述与教程论文,注重跨学科技术融合研究,最新的影响因子为28.0。本文的目的在于通过学习这篇文章,了解关于表格数据学习的图神经网络一些基础知识。
背景基于深度学习的表格数据学习(TDL)方法(如分类与回归)近年来展现出令人鼓舞的性。然而,尽管深度神经网络TDL具备从原始表格记录中学习有效特征表示的强大能力,但其对数据实例与特征值之间潜在关联的建模能力较弱。研究表明,通过建模高阶实例-特征关系、高阶特征交互作用以及数据实例间的多关系关联,可显著提升TDL的预测性能。作为建模不同数据实体间关系与交互的天然解决方案,图神经网络(GNN)近期受到广泛关注。通过从输入表格数据中合理构建图结构,GNN能够学习数据元素间的潜在关联,并为预测任务生成有效的特征表示。受GNN在自然语言处理和推荐系统领域成功应用的启发,针对表格数据学习的图神经网络(GNN4TDL)也呈现出日益增长的研究趋势。
研究价值与相关工作目前,已有若干早期研究尝试将现有的图神经网络方法应用于表格数据学习。近期研究已开始探索表特化图神经网络(TDL-specific GNNs)。这些研究几乎覆盖所有表数据学习主题与应用场景,引发了该领域的研究热潮。随着研究进展,若干核心问题随之浮现: (a) 基于图神经网络的表格式数据学习与传统表格式数据学习有何差异?(b) 在不同表格式数据场景和任务下,如何合理构建图结构?(c) 基于图神经网络的表格式数据表示学习背后的原理是什么?(d) 哪些表格式数据任务和应用领域能从图神经网络中获益?(e) 当前研究存在哪些局限性?未来研究蕴含哪些机遇?尽管近期GNN4TDL研究取得令人鼓舞的成果,但上述问题尚未得到系统探讨甚至被忽视。亟需揭示这些问题的答案,以推动该研究方向的进一步发展。
作者认为这项GNN4TDL调查将具有较高价值,因为该领域存在高需求但支持度较低。(a) 高需求:由于表格数据在众多领域和应用中无处不在,且人们逐渐将研究重点转向建模数据实例间的关系及其与特征值的关联性,作者相信用于表格数据学习的图神经网络不仅具有高研究影响力,更具备实际应用价值。该领域将同时获得学术界与产业界的关注。(b) 支持度低:根据表1的比较总结,GNN4TDL研究聚焦于一个利基但关键的领域,该领域在以往综述中基本被忽视。与其他专注于跨领域、跨数据类型广泛应用的GNN研究不同,论文不仅突显了GNN在表格数据预测、表示学习和图结构学习中的潜力,更率先探讨了GNN4TDL领域的自监督学习、多样化训练策略及辅助任务。
表1
下游任务在本节中,将讨论如何将表格数据表示学习形式化为图表示学习问题,并将表格预测视为不同的图相关下游任务。常见的下游任务包括节点级别、边级别和图级别的变体。
• 节点级别任务指的是节点分类和节点回归。该任务旨在预测每个节点 vi ∈ V 的标签 yi ∈ Y。给定获得的节点表示 hi,以节点分类为例,典型的方法是将 hi 输入到具有 Softmax 函数的多层感知器 (MLP) 层中以产生预测结果。交叉熵损失通常用于模型训练。
• 链接级别任务指的是链接预测、边分类和边回归。链接预测是一种二元分类任务 yi,j ∈ Y = {0, 1},它预测一个节点 vi 是否会连接到另一个节点 vj,给定它们对应的嵌入 hi 和 hj。边分类旨在将边分类为多个类别,而边回归旨在将边回归为实数值。对于链接预测,一种典型的方法是将 hi 和 hj 的向量连接输入到具有 Softmax 函数的 MLP 层中以产生结果。
• 图级别任务指的是图分类和图回归,其中输入是图表示 hG。以图分类为例,每个图 Gi 都与一个目标标签 yi ∈ Y 相关联。目标是训练一个模型来预测其标签。一种典型的方法是将 hG 输入到具有 Softmax 函数的 MLP 分类器中以生成预测结果。
工作流程和分类在本节中,我们将介绍用于表格数据学习的 GNN 的总体工作流程,然后详细分类每个关键阶段,阐明不同的方法如何完成这些阶段。伴随此分类,提供了每个类别中精选的代表性框架的描述。这些研究例证了工作流程中各个阶段或类别之间错综复杂的相互联系,突出了它们在整个 GNN4TDL 过程中的紧密耦合和协作功能。
1.工作流程基于图神经网络的表格数据学习的一般流程如图1所示。该流程始于图构建阶段,在该阶段,图的结构使用表格数据集中的元素来定义。此阶段涉及决定使用哪些元素作为节点,通常有三种方法:(1)将数据实例表示为节点,(2)将特征用作节点,或(3)两者的组合,形成不同类型的图。在此之后,图构建阶段旨在创建这些元素之间的连接,将表格数据转换为图结构。这种结构由初始构建决定,从而产生同构图(例如,实例图或特征图)或异构图(例如,二分图、多关系图或超图)。接下来,表示学习阶段涉及根据图的性质应用不同类型的图神经网络。采用各种同构实例图神经网络、同构特征图神经网络或异构图神经网络来学习数据实例的特征表示。此阶段至关重要,因为它决定了消息如何在图中传播,对特征和实例之间的交互进行建模,并影响学习到的嵌入的质量。如果使用特征图,则需要一个额外的信息聚合层,以基于学习到的特征嵌入生成最终实例表示。最后,训练计划阶段接收最终实例表示。在此阶段,采用不同的学习任务和训练策略,包括在主要任务旁边使用辅助任务。然后,通过预测层处理结果,以产生最终预测结果。这个全面的流程突出了图神经网络在处理各种图构建和学习任务方面的多功能性,最终实现了有效的表格数据学习和预测。
图1
2.分类
可以根据流程建立用于表格数据学习的构建图神经网络的分类法。在图2中给出了分类法。下面,相应地描述分类法中的分类,其中提到了每个类别中的一些代表性研究,并在表2中进行了总结。
图2
1) 从表格数据中形成图包含三种主要类型:同构图、异构图和超图。基于数据实例作为节点或特征作为节点,在同构图中,我们可以分别形成实例图。另一方面,异构图可以将数据实例连接到它们对应的特征(以及进一步连接到其他元数据)。异构图的形成可以是二分图或多部分图。还可以将不同的特征值视为不同的边类型,这些边类型描述了数据实例之间的不同关系,从而形成多路/多关系图。如果一种形式允许数据实例和特征的所有可能值出现在图中,则可以构建异构图来表示复杂的互信息依赖关系。至于超图的形成,共享相同属性的表格元素通过一条边连接。超图中的一条边可以连接任意数量的表格元素。例如,共享相同特征值的实例可以通过超图中的一条边连接。
2) 给定一个特定的图结构,其中节点已经确定,第二阶段的目标是通过在节点之间创建边连接来证实该结构。根据边创建的标准,通常有四种方法,包括内在结构、基于规则、基于学习和其他方法,其中前两种方法被广泛采用。创建链接的直观方法是利用表格数据元素之间固有的关系,例如,一个实例包含特征值,两个实例共享特定特征的相同值 ,一个数据表通过主外键关系与另一个数据表相关。为了定义数据实例和/或特征之间的边,基于规则的方法依赖于一些手动指定的启发式方法,例如 k 近邻 ,全连接结构 和阈值化 。基于学习的方法自动生成节点之间的边。它可以分为三个子类别:基于度量的方法使用核函数来计算基于节点相似性的边权重 。神经方法采用深度神经网络进行自适应图构建 。直接方法将邻接矩阵视为可学习的。其他方法属于基于检索或基于知识的方法。基于检索的方法要么借助于发现相关和相似的数据实例,以基于信息检索技术构建边,要么执行神经架构搜索,以找到更好的图拓扑结构来进行表示学习。基于知识的方法需要领域专家提供数据实例之间相关性的知识 或描述特征之间关系的知识图,以便可以以细粒度的方式构建图。
3) 一旦导出了描述表格数据的图,无论如何通过图结构描述数据实例及其相应的特征,下一阶段都是学习每个实例的最终表示。基于获得的图的类型,例如同构图或异构图,我们可以利用同构 GNN 模型和异构 GNN 模型来生成每个实例的嵌入。除了简单地应用现有的 GNN 模型之外,一些现有的工作还开发了专门的 GNN,以更好地捕获实例和特征之间各种复杂的交互。
4) 基于实例的学习到的特征表示设计合适的训练计划是最后一个组件。可以从学习任务和训练策略两个方面讨论训练计划。虽然主要任务是预测目标标签,但开发了各种监督变体来增强学习,因此,可以构建不同的辅助任务。例如,利用对比学习来更好地改进图结构学习,引入具有自动编码器的自监督学习以产生去噪特征,并施加各种图正则化以稳定图学习并避免过拟合。由于数据本质上是表格形式,因此额外的学习任务可以保留输入表格数据中的属性,例如特征的全局统计信息、领域知识保留和空间信息编码。采用一系列训练策略来优化 GNN4TDL 的性能。两阶段方法依次学习图结构,然后训练预测模型。对抗技术增强了特征重建的真实性。替代方法动态调整特征重建权重以提高任务相关性。双层优化同时调整 GCN 参数和图生成。预训练-微调策略利用自监督学习来实现对数据的鲁棒初始理解,然后进行有针对性的微调,尽管存在潜在的阶段不匹配。端到端训练是最广泛采用的策略,提供简化的学习到预测过程,直接增强了改进的性能。
表2
未解决的问题和未来方向1. 获得基于树模型的能力
最近的一项研究 讨论了基于树的模型在典型表格数据上仍然优于深度学习的潜在原因。主要发现强调,神经网络难以创建最适合非平滑决策边界的函数,而基于树的方法在处理不规则模式方面做得更好。此外,不相关的特征会显著降低神经网络模型的性能。但是,基于树的模型有能力免受较差特征的影响。在为表格数据学习开发 GNN 模型时,如果可以结合学习奇怪模式和更好选择有用特征的能力(如基于树的方法),则可以提高性能。最近的进展已经有效地尝试将这种能力从基于树的模型转移到神经网络。如何在 GNN 中进行此类设计以进行表格数据学习将是一个有用的方向。
2. 结合图 Transformer
具有图特定修改的标准 Transformer 可以学习节点和边令牌的有效表示。当前能看到,表格数据中的各种元素可以被视为节点,并且它们的相关性可以用作边。将表格元素适当地排列为 Transformer 的输入,不仅会带来GNN 的优势,还会施加 Transformer 的优势。数据实例的表示质量可以进一步提高,因为 Transformer 能够学习数据中特征之间复杂的表示和交互。此外,还有一种自然的方式来处理缺失值,因为 Transformer 可以通过自注意力机制隐式地学习处理缺失值,该机制为缺失的数据点分配低注意力分数。甚至可以将图表示学习模型更改为图增强的 Transformer,如 Structure-Aware Graph Transformer和 GPS Graph Transformer,从而在表格数据学习中享受 Transformer 的优势。
3. 将 GNN 扩展到大型表格数据
现实应用中的表格数据,例如点击率预测和欺诈检测,可能包含数百万个实例和数千个特征。为大规模表格数据制定和构建各种图及其表示学习需要巨大的计算成本,这使得现有方法不可行。三种不同的策略可以将可扩展性引入 GNN4TDL。首先是选择一种紧凑的图公式,该公式需要为表格数据构建相对较少的节点和/或边。超图可能是一种计算效率高的公式。第二种是应用稀疏学习技术来产生图稀疏化,该技术对子图进行采样以减少数据聚合量,并实现模型稀疏化,该技术修剪神经网络以减少可训练权重的数量。第三种是采用可扩展的 GNN 模型,例如 PPRGo、NDLS、GraphAutoScale和 GraphFM。
4. 用于表格数据的非同质构图结构学习
当前已经看到了各种基于学习的方法来构建图结构,这些图结构描述了表格数据。然而,它们中的大多数都侧重于学习同构图,其中节点都是数据实例。对于从表格数据构建的二分图、异构图和超图的图结构学习尚未完全探索。虽然同构图中的边描述了实例之间或特征之间的相关性,但表格数据的非同构图结构的学习涉及将数据实例与各种特征连接起来。可以从多个方面阐述其潜在含义。例如,学习到的边可以被视为将实例与附加特征相关联,这本质上是数据增强的效果。由于某些实例可能包含缺失的特征值,因此将它们连接到特征是一种数据插补,这也是表格数据上的自监督学习任务。此外,由于图结构学习不仅考虑了边的添加,还考虑了边的删除,因此消除实例和特征之间的关联(相当于创建缺失值)可以被视为对抗性学习,这可以提高表格数据预测的泛化能力和模型鲁棒性。
5. 更好地利用特征的策略
当将表格数据表示为图时,常见的公式是实例图和二分图,它们分别需要特征来创建边和节点。当应用图神经网络时,需要与节点关联的初始向量来进行信息传播。实例的特征具有多种用途——用作特征节点(在二分图中),用于在实例节点之间创建边(在实例图中),以及用作实例节点的初始向量(在二分图和实例图中)。表9中总结了特征的这三种用法的优缺点。探索哪种表格特征更适合GNN的哪种类型的用法仍有待研究。例如,哪些特征更适合用作初始节点向量?此外,哪些特征应该用于创建边?为了释放GNN在表格数据方面的能力,还可以寻求优化特征的使用。任务是以不相交或重叠的方式为不同的用途选择特征子集,从而提高预测性能。这个方向也与图神经网络上的特征选择有关,其中不利用不相关的特征作为初始节点向量可以提高节点分类的性能。所选特征作为初始向量也不能冗余,因为高度相关的特征会导致深度GNN的性能下降。
表9
6. 基于图的表格数据自监督学习
自监督学习(SSL)已被证明在基于深度学习的表格数据预测中非常有用。应用于表格数据的典型辅助SSL任务包括对比学习,特征重建,数据插补和列预测。当表格数据由图表示时,可以进一步利用描述实例(和/或特征)之间相关性的结构知识,以及原始特征,来设计适当的基于图的SSL任务。以下是基于表格图的一些潜在的SSL任务。
(a) 缺失特征插补:通过训练GNN来重建每个实例的已知特征,从而预测缺失的特征值。这有助于模型学习特征级别的关系和依赖性。
(b) 图聚类:通过优化聚类目标(例如,最大化簇内相似度和最小化簇间相似度)来学习将相似实例分组在一起的节点嵌入。
(c) 图补全:训练GNN以基于现有边和节点属性来预测图中缺失的边,从而学习捕获实例之间的高阶关系。
(d) 邻域预测:训练GNN以基于节点的属性和图结构来预测给定节点的邻居,从而学习识别局部模式和关系。
(e) 去噪或去腐化图:通过优化图重建损失,训练GNN以从噪声或腐化版本重建原始图,从而学习捕获实例的鲁棒且干净的表示。
(f) 对比学习:创建实例的正负对(例如,基于特征相似性或其他标准),并训练GNN来区分它们,从而学习信息丰富且具有区分性的表示。SSL任务有助于GNN从表格数据中学习有效且富有表现力的表示,然后可以针对下游任务(例如分类、回归和推荐)进行微调。
7. 处理鲁棒性问题
将GNN应用于表格数据预测会引入由不同因素引起的鲁棒性问题。下面,讨论这些鲁棒性问题,这些问题需要在设计用于表格数据的GNN中进一步探讨。
(a) 图结构中的噪声:由噪声特征和缺失值导致的虚假边或不完整连接会阻碍模型有效学习和泛化的能力,因为它们可能导致GNN中信息的不正确传播和聚合。
(b) 数据分布偏移:GNN可能难以应对数据分布的偏移,例如特征分布或实例之间关系的变化。虽然GNN可以捕获训练数据中的复杂模式,但它们可能无法很好地泛化到具有不同特征的未见数据。
(c) 过拟合和过度平滑:GNN可能会遭受过拟合,尤其是在从小表格数据集中学习时。过度平滑是一种节点表示在多层聚合后变得过度相似的现象,会进一步加剧此问题,从而降低模型区分实例的能力。图的构建方式会影响过拟合和过度平滑的程度。
(d) 对抗性攻击:GNN可能容易受到对抗性攻击,其中引入对图结构或节点特征的微小扰动以误导模型。此类攻击可能会利用模型对图结构和特征噪声的敏感性,从而可能导致性能显着下降。表格GNN模型需要对来自实例上恶意制作的特征值的结构扰动具有鲁棒性。
2025年10月28日学习笔记
原文链接
[Graph Neural Networks for Tabular Data
Learning: A Survey with Taxonomy & Directions](https://arxiv.org/pdf/2401.02143)
参考文献
[145] Zonghan Wu, Shirui Pan, Fengwen Chen, Guodong Long, Chengqi Zhang, and Philip S. Yu. A comprehensive survey on graph neural networks. IEEE Transactions on Neural Networks and Learning Systems, 32(1):4–24, 2021.
转载请注明来自海坡下载,本文标题:《簇优化表格(基于GNN的表格数据学习基础知识)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...