Page 196 - 《软件学报》2026年第1期
P. 196

刘子扬 等: 图对比学习方法综述                                                                 193


                 征无法验证其满足均匀性标准           (对齐性和均匀性被验证是图像对比表征必备的两大属性); 使用巴洛孪生损失的算
                 法由于不需要负样本对上的对比, 因此具有低复杂度的优势, 此外还具有很强的可解释性, 然而这类算法过于依赖
                 平衡系数的设定, 也存在一定局限性.
                  3.5   图对比学习方法设计的新思考
                    通过总结以上图对比学习算法, 我们可以分析得出: 图数据增强、图神经网络编码和对比损失训练是图对比
                 学习流程的    3  个关键阶段. 之前很多工作都对这          3  个阶段进行了深入的探索, 并设计了各式各样的图对比学习算
                 法. 然而, 我们发现在这     3  个阶段中仍有一些有意思并且符合直觉的研究思路值得去探索. 这里我们对新设计的图
                 对比学习算法进行简要的思路介绍.
                  3.5.1    基于拉普拉斯矩阵完成数据增强的图对比学习方法
                    第  1  类新设计的图对比学习算法侧重于实现新的图数据增强. 过往的图对比学习算法在设计图数据增强环节
                                                                 G 上的拉普拉斯矩阵       L  进行数据增强. 拉普拉斯矩
                 时, 往往对原始的输入图       G 进行增强. 这里我们提出对原始图
                 阵  L  的第  i 行的含义是: 第  i 个节点在产生扰动时, 对其他节点产生的收益累积. 相比于邻接矩阵                    A, 拉普拉斯矩
                 阵  L  更直接的贴近后续图神经网络模型的输入. 因此, 直接对拉普拉斯矩阵                   L  进行增强可以增加图数据增强的多
                 样性. 该算法的核心思想形式化表示如下:

                                                        (  )       (   )
                                                  ˆ L = Aug L, ˆ θ , ˇ L = Aug L, ˇ θ                (22)
                  3.5.2    采用不同图神经网络模块结构设计的图对比学习方法
                    当前图对比学习算法在编码器阶段基本上采用了相同的图神经网络模块, 比如                          GCN  模型. 正如前面提到的那
                 样, 编码器阶段如能对提取出的嵌入表征放大差异性, 则更加有用. 因此, 我们很容易想到针对两个通道上的编码
                 器设计不同的图神经网络模块结构. 比如: 第             1  个通道采用   GCN  模型, 第  2  个通道采用  GAT  模型. 其形式化表示
                 如下所示:

                                                       (   )        (   )
                                                 ˆ Z = GCN ˆ A, ˆ X , ˇ Z = GAT ˇ A, ˇ X             (23)
                    在采用不同图神经网络模块结构设计中, 关于模型训练复杂度和提高模型效果的性价比问题, 我们进行了以
                 下分析. 1) 训练复杂度的增加: 使用不同的图神经网络模块确实会增加训练的复杂度, 因为需要训练两个独立的模
                 型. 然而, 通过实验我们发现, 这种增加的复杂度在可接受的范围内, 尤其是在现代硬件                         (如  GPU) 支持下, 这些计
                 算开销是可控的. 考虑到现代         CPU  的多核环境, 我们还可以通过分布式并行的方法来进一步优化训练过程. 例如,
                 利用多线程技术和并行计算, 可以有效地将不同通道上的编码器的训练任务分配到不同的                              CPU  核心上, 从而不会
                 增加模型训练的时间. 2) 模型效果的提升: 采用不同的图神经网络模块结构设计有助于捕捉数据的多样性和异质
                 性. 每个通道专注于不同的特征表示, 这样可以更全面地学习图结构信息. 3) 性价比: 采用不同图神经网络模块后,
                 虽然训练时间开销有所增加, 但是性能也有所提升. 采用不同图神经网络模块结构设计的图对比学习方法在实际
                 应用中的改进效果明显, 使得这一方法在整体上具有较高的性价比.
                  3.5.3    温度系数可训练的图对比学习方法
                    温度系数在标准化温度交叉熵损失中扮演着重要的作用, 这一系数可以直接对计算出的表征相似度进行放
                 缩, 进而影响损失值大小. 现有的采用标准化温度交叉熵损失的图对比学习算法通常使用固定不变的温度系数, 这
                 种设置方式大大削弱了算法的灵活性. 因此, 我们提出温度系数可训练的图对比学习算法, 即让温度系数参与图对
                 比学习算法的训练过程, 在训练中不断优化更新. 该算法的更新规则如下所示:

                                                           (         )
                                                                   L                                 (24)
                                                   W 1 ,W 2 ← ˆ θ, ˇ θ,∂ W 1 ,W 2

                                                              (     )
                                                    τ ← optimize ˆ θ, ˇ θ,∂ τ L                      (25)
                  4   应 用

                    图对比学习算法在各类图挖掘任务中有着广泛的应用. 这里我们介绍图对比学习算法的一些主要应用, 包括
   191   192   193   194   195   196   197   198   199   200   201