Page 189 - 《软件学报》2026年第1期
P. 189

186                                                        软件学报  2026  年第  37  卷第  1  期


                 使用节点丢弃     (丢弃概率为    0.2) 得到,  G ˇ  通过对  G 使用属性掩码  (掩码概率为   0.3) 得到. 通过一系列的对比实验,
                 You  等人  [40] 发现了使用不同图数据增强方法组合的方式将使得图对比学习获益更大等各种有价值的结论.

                                         表 1 GraphCL  中使用的   4  种图数据增强方法概述

                            名称             相关的图信息                            解释
                          节点丢弃               节点、边              随机移除部分节点, 保持对整体语义的不变性
                           边置换                 边                随机增删边, 提升对链接关系变化的鲁棒性
                          属性掩码                节点              随机掩蔽节点属性, 增强对局部特征缺失的鲁棒性
                          子图提取               节点、边         从局部子图中恢复全局语义, 鼓励模型捕获结构上下文信息

                    此外, 固定式图数据增强策略还包括个性化页面排名                  (personalized PageRank, PPR)、热核扩散和自适应增强
                 策略等. 例如, MVGRL    方法  [71] 采用了  PPR  和热核扩散策略; GCA  方法  [72] 采用了自适应增强策略. 具体来说, PPR
                 和热核扩散都属于图扩散方法, 它们均采用扩散矩阵                  S  来代替邻接矩阵来实现图神经网络中的消息传递功能.
                 PPR  中计算矩阵   S  的公式如下:

                                                           (       )
                                                              −1
                                                     S = exp tAD −tI N                                (4)
                 其中, t 是扩散时间, A   和  D  分别是邻接矩阵和度矩阵. 而热核扩散中计算矩阵              S  的公式如下:

                                                     (                ) −1
                                                 S = α I N −(1−α)D −1/2 AD −1/2                       (5)
                 其中,  I N  表示  N×N  的单位矩阵  (N  为图中节点数量),  α 表示随机游动中的隐形传送概率. 在          MVGRL  中, 对比学习
                 的两个通道分别使用邻接矩阵           A (表示图结构的局部视图) 和扩散矩阵           S (表示图结构的全局视图) 进行消息传递,
                 这样能够最大化从这两个视图学习到的表征之间的一致性, 允许模型同时编码丰富的局部和全局信息. 相比传统
                 的固定数据增强      (即在训练阶段固定数据增强参数, 且在训练前不对数据集做特定处理), GCA                      的数据增强策略具
                 有自适应特点     (即虽然在训练阶段也固定数据增强参数, 但是在训练前会对数据集做自适应处理): 它首先通过网
                 络中心性度量识别重要的边和特征维度, 然后在拓扑层面以更高的概率随机删除不重要的边以加强模型对网络连
                 接模式的识别, 在节点属性层面则通过在不重要特征维度上添加更多噪声来突出底层语义信息.
                  3.1.2    基于可学习式图数据增强策略的图对比学习方法
                    相比传统的固定式图数据增强, 可学习式图数据增强具有更大的灵活性, 它放松了图对比学习中图数据增强
                 参数不能调整更新的约束. 可学习式图数据增强的示意图如图                    4  所示. 一般来说, 可学习图数据增强采用了两阶段
                 的学习模式: 在第     1  阶段, 算法固定住编码器的网络参数, 同时更新图数据增强参数; 在第                  2  阶段, 算法固定住图数
                 据增强参数, 同时更新编码器的网络参数. 从中我们不难发现, 固定式图数据增强策略仅是可学习图数据增强策略
                 的第  2  阶段, 在方法灵活性上大大受限.

                       更新图数据增强参数                                                 更新编码器的网络参数
                                         编码器                                    编码器
                                 X i ˆ             Z i ˆ                 X i ˆ             Z i ˆ
                             θ ˆ        (W 1, W 2 )                   θ ˆ       (W 1, W 2 )

                                                       对比损                                    对比损
                                                       失函数                                    失函数
                         X i                                    X i
                              θ  ˆ  ˆ    编码器        ˆ                 θ  ˆ  ˆ   编码器        ˆ
                                 X i               Z i                   X i               Z i
                                        (W 1, W 2 )                             (W 1, W 2 )
                                    (a) 第1阶段学习                             (b) 第2阶段学习
                                         图 4 采用两阶段学习模式的可学习式图数据增强

                    典型的基于可学习式图数据增强的图对比学习算法有                    AD-GCL [43] 、LP-InfoMin [44] 和  LP-InfoBN [44] . AD-GCL
                 采用对抗学习的思路来同时优化图数据增强参数和编码器网络参数. 具体来说, 在第                          1  阶段, AD-GCL  的优化目标
   184   185   186   187   188   189   190   191   192   193   194