Page 184 - 《软件学报》2026年第1期
P. 184
刘子扬 等: 图对比学习方法综述 181
神经网络 (graph neural network, GNN) 来捕捉用户和物品之间的复杂关系, 从而生成更加精准的推荐结果; 在社交
网络中, 我们可以使用图嵌入方法来学习节点表征, 从而进行节点分类、社区发现等任务; 在交通领域, 我们可以
使用图神经网络来分析交通流量、交通拥堵等问题, 从而为城市规划和交通管理提供支持. 因此, 图数据的研究具
有广泛的应用背景和实际意义, 可以为人工智能、大数据、推荐系统、社交网络等领域提供有力的支持.
无监督学习和自监督学习是机器学习领域中两种重要的方法. 无监督学习主要通过聚类、降维、生成模型等
技术, 从无标签的数据中发现隐藏的模式或数据分组. 典型的无监督学习方法包括: k-means 聚类 [16,17] 、神经化的
核密度估计 [18] 、自编码器 [19] 等. 与有监督学习不同, 无监督学习的目标函数不依赖人工标签, 而是基于数据分布
或结构设计, 因此其结果可能对初始化或数据采样更敏感. 自监督学习是一种从无标签数据中学习出有用的表征,
然后将表征应用于下游任务中有标签数据上的机器学习方法. 目前, 自监督学习方法主要可以分为以下 5 类.
● 基于预训练模型的方法: 这类方法利用在大规模数据上预训练的模型 (如语言模型 [20,21] 、视觉模型 [22,23] 和
图模型 [24,25] ) 进行自监督学习, 通过模型微调将预训练模型的知识应用到特定任务中, 以提高模型的表现和泛化能力.
● 基于预测的方法: 这类方法利用无标签数据来预测某个随机变量或一组随机变量的值, 例如预测下一个单
词、下一个字符、下一个帧等. 然后, 利用预测结果来学习数据的特征表示, 并在有标签的数据上进行微调 [26−28] .
● 基于对抗生成网络的方法: 这类方法通过训练一个生成网络和一个判别网络, 使它们互相竞争, 从而学习数
据的特征表示. 生成网络的目标是生成能够欺骗判别网络的数据, 而判别网络的目标是正确分类生成网络生成的
数据. 这种方法在图像 [29−32] 、音频 [33−35] 和自然语言处理 [36−38] 领域有着广泛的应用.
● 基于对比学习的方法: 这类方法通过比较两个或多个数据样本, 学习数据的特征表示. 具体来说, 这种方法
通过将一组数据样本与另一组经过修改的数据样本进行比较, 来学习两组数据之间的相似性和差异性. 然后使用
学到的特征表示来进行分类等任务 [39−50] .
● 基于时间序列的方法: 这类方法主要应用于时间序列数据的自监督学习. 由于时间序列数据具有连续性和
顺序性, 因此可以设计一些代理任务来学习时间序列数据的特征表示, 例如预测下一个时间点的值、预测时间序
列的未来趋势等 [51−54] .
以上列举的这 5 类方法并不是完全独立的, 它们可以互相借鉴和融合, 以实现更好的自监督学习效果. 在图数
据挖掘中, 早期的研究主要集中在无监督学习上, 例如通过聚类、降维等技术对图数据进行处理和分析. 然而, 由
于无监督学习无法充分利用有标签的数据, 其效果受到了很大的限制. 随着自监督学习的兴起, 越来越多的研究者
开始探索如何利用自监督学习来改善图数据的处理效果.
图对比学习 (graph contrastive learning, GCL) 是图自监督学习中一项非常重要的技术 [1,43−48,55] . 一个典型的图
对比学习框架首先对输入图添加随机噪声来构造多个图视角, 然后通过对比正样本和负样本来学习节点嵌入表
征. 一般情况下, 对于每个锚节点, 它在不同视图中的不同表征被选作正样本, 而在同一视图或不同视图中的不同
节点表征被选作负样本. 图对比学习成为近几年图自监督学习的研究热点, 并在多项下游任务中取得了很好的预
测效果, 甚至超出了经典的图神经网络方法, 比如: 图卷积网络 GCN [56] 、图注意力网络 GAT [57] 等. 尽管不同的图
对比学习方法的总体设计结构很相似, 但从技术细节上看, 它们又各有特点. 因此, 这就需要我们对图对比学习的
不同组成部分有更深入的了解. 这样的了解对于分析不同图对比学习算法的适用场景以及启发设计新的图对比学
习算法都具有重要意义.
图 1 给出了图对比学习算法的分类框架. 总的来说, 图对比学习算法可分为 3 个大类: 基于不同图数据增强策
略分类的算法、基于不同图神经网络编码器结构分类的算法和基于不同对比损失目标的算法. 在基于不同图数据
增强策略分类的算法中, 根据图数据增强策略的类型, 可分为使用固定式图数据增强的算法、使用可学习图数据
增强的算法和无图数据增强的算法. 在基于不同图神经网络编码器结构分类的算法中, 根据编码器结构的对称性,
可分为使用对称编码器结构的算法和使用非对称编码器结构的算法. 在基于不同对比损失目标的算法中, 根据损
失函数的类型, 可分为使用标准化温度交叉熵损失的算法、使用杰森香农散度 (Jensen-Shannon divergence) 损失
的算法、使用三元组边缘损失的算法、使用巴洛孪生 (Barlow twins) 损失的算法、使用 BYOL 损失的算法、使
用二元交叉熵损失的算法、使用元学习损失的算法和使用典型相关分析损失的算法.

