Page 195 - 《软件学报》2026年第1期
P. 195

192                                                        软件学报  2026  年第  37  卷第  1  期


                 增强的算法设计灵活, 因此能够适应模型训练时编码器网络参数的调整改变, 但是由于图数据增强阶段参与到了
                 模型训练过程中, 必然会带来额外的复杂度开销; 无图数据增强的算法简化了图对比学习的整体流程, 降低了算法
                 对图数据增强参数的依赖, 但是这类算法往往需要设计复杂的图神经网络编码器, 因此存在节点表征坍塌的风险.

                                              表 3 图对比学习方法分类及优劣势

                 关注的角度       方法分类                方法概述                    方法优势               方法劣势
                                                                   图数据增强阶段设计简单、整个图数据增强阶段在
                          使用固定式图数据 在模型训练中的图数据增强阶段, 图               易于操作, 不会带来额外时空 模型训练时保持不变,
                          增强的算法         数据增强参数保持不变
                                                                   复杂度开销                缺乏算法灵活性
                                        图数据增强参数参与模型训练, 随着 图数据增强阶段设计灵活, 能 图数据增强阶段参与训
                          使用可学习图数据
                 图数据增强 增强的算法            图神经网络模型的网络参数一起优 够适应模型训练时编码器网 练, 给算法带来额外的
                                        化更新                        络参数的调整改变             时空复杂度开销
                                                                   简化了图对比学习训练流程,
                          无图数据增强的算 算法不包含数据增强阶段, 仅包括图               复杂度较低, 减少了对人工调       图神经网络编码器设计
                          法             神经网络编码器和对比损失函数                                  复杂, 存在表征坍塌风险
                                                                   参的依赖
                                                                   编码器结构设计简单、可以
                          使用对称编码器结 两个通道上的图神经网络模型结构                 直接套用经典的优化器算法,        无法支持无图数据增强
                          构的算法          对称, 参数共享                                        的图对比学习算法
                                                                   复杂度低
                 图神经网络                  设置在线编码器和目标编码器, 前者          支持多种类型的图对比学习
                 编码器结构 使用非对称编码器 的目标是让节点嵌入表征尽可能地                    算法, 可解释性强, 能避免表      编码器设计复杂, 复杂
                          结构的算法         接近, 后者在更新时采用在线编码器          征坍塌问题                度高
                                        参数的指数滑动平均值
                          使用标准化温度交 最大化正样本对间的相似度并最小 经典的对比损失函数设计, 适 涉及负样本对对比, 复
                          叉熵损失的算法       化负样本对间的相似度                 用性强                  杂度高
                          使用杰森香农散度 最大化同一节点表征的互信息, 同时 基于互信息理论设计损失函 涉及负样本对对比, 复
                          损失的算法         最小化不同节点表征的互信息              数, 有良好的理论基础支撑        杂度高
                                        考虑了正样本对和负样本对相似度                                 边缘阈值不好确定, 学
                          使用三元组边缘损      之间的距离性, 即正样本对相似度要          可以把负样本和正样本学习         习出的表征能否满足均
                          失的算法                                     得更有区分性
                                        比负样本对相似度要高出一个阈值                                 匀性标准缺乏验证
                                        鼓励同一节点在不同图视图上的表
                          使用巴洛孪生损失      征相似, 同时确保它们也是去相关或          无负样本对对比, 复杂度低, 依赖平衡系数的设定,
                          的算法                                      强可解释性                平衡系数影响模型效果
                                        正交的
                  对比损失    使用BYOL损失的     一般与非对称编码器结构同时使用, 简化了训练过程, 无需负样                  模型训练收敛慢, 迭代
                    目标                  最大化两个编码器输出表征之间的 本, 模型训练复杂度与节点数
                          算法                                                            周期长
                                        余弦相似度                      成正比
                                                                                        主要适用于二分类任务,
                          使用二元交叉熵损 最小化预测概率与实际标签之间的 在二分类任务中能够快速收                         对于多分类任务需要使
                          失的算法          交叉熵来优化模型                   敛, 训练高效
                                                                                        用其他损失函数
                          使用元学习损失的 同时使用对比损失和分类损失, 在子 实现了对新任务的快速适应 需要在多个任务上进行
                          算法            任务中进行训练                    和更好的泛化能力             训练, 训练过程复杂
                                        通过正则化鼓励不同特征维度捕捉                                 矩阵计算复杂度较高,
                          使用典型相关分析      不同语义, 同时最大化两视图间的相          通过提取相关性特征, 增强模       尤其在处理大规模数据
                          损失的算法                                    型对数据间关联的捕捉能力
                                        关性                                              时计算成本较大

                    其次, 对于基于图神经网络编码器分类的图对比学习算法, 使用对称编码器的算法和使用非对称编码器的算
                 法存在不同的优劣势. 前者的编码器设计结构简单, 可以直接使用经典的优化器算法, 且具有较低的复杂度, 但是
                 它无法支持无图数据增强的图对比学习算法                (这种情况下会发生节点表征坍塌问题); 后者能够支持多种类型的图
                 数据增强策略并且具有良好的可解释性, 但是编码器设计比较复杂, 训练开销较大.
                    最后, 对于基于对比损失目标分类的图对比学习算法, 8                类采用不同对比损失的算法也具有各自的优劣势. 比
                 如: 使用标准化温度交叉熵损失的算法适用性强、应用广泛, 但由于涉及大量负样本对计算, 导致算法复杂度很高;
                 使用杰森香农散度损失的算法有着良好的理论支撑, 但它和前一类算法具有同样的高复杂度的劣势; 使用三元组
                 边缘损失的算法能够把正负样本清晰地区分开来, 但损失函数中的边缘阈值难以合理设定, 并且学习出的节点表
   190   191   192   193   194   195   196   197   198   199   200