Page 397 - 《软件学报》2025年第5期
P. 397

王晨旭 等: 基于半监督和自监督图表示学习的恶意节点检测                                                    2297



                 其中,   λ 1  与  λ 2 ∈ [0,1]  为超参, 用于调节局部视图信息与全局视图信息的比例. 将        h (final)   作为分类器   f Θ : h (final)  7→ p
                 的输入进行下游分类任务, 具体过程如公式              (21) 所示:

                                                          (        )
                                                      p = σ Wh (final)  +b                            (21)
                 其中,    W 和  b 为可训练的参数,   σ 为  Softmax  函数.

                 4.1   基于图扩散的数据增强
                    常用的图数据增强方法大致可以分为以下两种: (1) 节点特征变换: 通过噪声注入、特征掩码、特征置换等方
                 式对初始节点特征进行特征空间增强; (2) 图拓扑变换: 通过添加或删除边、添加或删除节点、重采样边权等方式
                 改变图的拓扑结构, 或使用最短距离或扩散矩阵生成全局视图. 节点特征变换可能会改变图的语义信息, 导致原本
                 的标签不适用于新生成的样本, 并且其可能会引入一些噪声或者模糊, 降低模型的性能. 而图拓扑变换中的对边或
                 节点的增加删除等操作可能会导致图数据原本的信息被破坏. 研究表明                        [21] , 大多数情况下, 通过图扩散卷积将邻
                 接矩阵转换为扩散矩阵, 并将两个矩阵视为同一图结构的两个一致视图可以取得最佳结果. 基于这个思路, 本节中
                 采用基于个性化      PageRank  的图扩散卷积模型, 根据原始图的邻接矩阵得到扩散矩阵, 具体计算方式如公式                        (22)
                 所示:

                                                      (                ) −1
                                                S PPR  = α I n −(1−α)D −1/2 AD −1/2                  (22)
                      A ∈ R n×n                 α ∈ (0,1) 表示个性化  PageRank            α 越小则表示越倾向于利
                 其中,         表示原始图的邻接矩阵,                                中的传送概率,
                 用大邻域的信息, 而     α 越大则越倾向于保持局域性,          I n ∈ R n×n   表示单位矩阵,   D ∈ R n×n  为度矩阵, 对角线上的值为每
                 个节点的度数.
                    与基于原始邻接矩阵的表示学习不同, 基于上述扩散矩阵进行图节点表示学习, 聚合过程中节点会从更大的
                 邻域范围内获取信息, 因而学习到的节点表示可以反映图的全局结构和特征. 将扩散矩阵                            S PPR   作为原始图  ϕ 1  的全
                 局视图  ϕ 2  , 并在这两个视图上进行表示学习, 以同时挖掘图中的局部信息与全局信息.

                 4.2   自监督图对比学习
                                                                    ϕ 2  上学习的节点表示则反映图的全局结构和特
                    本文中原始图      ϕ 1  上学习到的节点表示具有局部性, 全局视图
                 征. 在这种情况下, 不同视图生成的表示可以相互补充, 从而丰富最终表示结果. 因而本节在原始图与全局视图上
                                                           . 具体来说, 本文将不同视图上的同一节点视为一对正样本
                 构建代理任务以训练不一致图神经网络编码器
                                                      g ϕ 1  ,g ϕ 2
                       (     )                                          (    ) (    )
                                                                          ϕ 1
                         ϕ 1
                                                                                ϕ 1
                 对, 例如   v ,v ϕ 2   , 而该节点与另一视图上的其他节点则为负样本对例如            v ,u ϕ 2  , u ,v ϕ 2   . 如图  3  所示.


                                                                          自监督图对比学习
                                                                              恶意节点
                                                                              正常节点
                                                                              未标记节点
                                                                                 正样本对
                                                                                 负样本对
                                  ϕ 1
                                                        ϕ 2
                                                   图 3 自监督图对比学习

                    通过最大化正样本对之间的互信息, 可以使编码器同时挖掘图中的局部信息与全局信息. 具体来说, 引入对比
                 损失来进行训练, 具体方式如公式          (23) 所示:

                                                  L self (x i ) = L ϕ 1  (x i )+L ϕ 2  (x i )        (23)
                                                           self   self
                                                         i
                                      ϕ 1     ϕ 2
                 其中,   n 为图中的节点数,    L  (x i ) 和  L  (x i ) 为节点   在原始图和全局视图中的自监督图对比损失. 由于互信息很
                                      self    self
                 难被直接计算     [22] , 通常会采用参数化互信息下界, 并抬高下界的方式以实现互信息最大化, 而本文基于                       InfoNCE
                 互信息下界估计器      [22]                L ϕ 1  (x i ) 具体如公式  (24) 所示:
                                 来构造此对比损失, 则        self
   392   393   394   395   396   397   398   399   400   401   402