Page 401 - 《软件学报》2025年第5期
P. 401

王晨旭 等: 基于半监督和自监督图表示学习的恶意节点检测                                                    2301


                 T-finance 数据集上, CARE-GNN, PC-GNN, H2-FDetector 以及  GHRN  等模型中的数据不一致处理策略反而会破
                 坏图中原有的信息, 从而降低模型分类的效果, 而               CAMD  在为节点学习表达能力强的表示向量的同时, 并不会破
                 坏图本身的信息. 因此, CAMD       对新领域的恶意检测数据具有良好的自适应性.

                            +
                 5.4.2    CAMD 对比实验
                                   +
                    对比模型和     CAMD 方法在恶意节点检测任务上的对比结果如表                 3  所示. 本文以粗体突出显示每个类别中的
                 最佳结果, 从表中可以看出本节提出的方法在大部分数据集上表现要优于其他方法, 在                            Tencent-Weibo  数据集上
                 略低于本文第     3  节提出的方法    CAMD. 首先发现与第      5.4.1  节的实验结果相比, 这些方法在标签稀缺的情况下性
                 能都会有所下降, 这是因为标记数据稀缺导致模型在训练过程中获取的信息不足, 无法捕捉到恶意节点的真实分
                 布和规律.


                                                          +
                                                表 3 CAMD 对比实验结果 (%)

                               Class       Method    Amazon  YelpChi  Wiki  Tencent-Weibo  T-finance
                            General GNN    APPNP      93.70   64.88   56.03    96.78     95.99
                           Contrastive GNN  MVGRL     82.29   75.41   60.02    89.58     93.11
                                           GPRGNN     90.40   60.77   59.79    98.83     95.97
                          Heterophilious GNNs  MixHop  92.48  77.62   58.08    94.05     95.12
                                           H2GCN      94.12   78.01   58.81    97.23     95.24
                                          CARE-GNN    91.73   72.59   51.26    85.28     93.01
                                           PC-GNN     90.82   75.89   53.66    90.82     95.65
                                         H2-FDetector  93.78  79.39   52.58    93.34     95.51
                          Graph fraud detection
                                            GHRN      93.92   76.80   58.51    91.22     96.22
                                         CAMD (Ours)  96.54   78.83   59.82    99.20     97.11
                                              +
                                         CAMD  (Ours)  96.59  80.36   61.04    99.16     97.40

                    观察图对比学习方法        MVGRL, 此方法首先基于图扩散生成全局视图, 然后在两个视图上进行自监督图对比学
                 习. 此方法在   Amazon、Tencent-Weibo  和  T-finance 上表现较差, 而在另外两个数据集上表现相对较好, 这可能是因
                 为对于   YelpChi 和  Wiki 这种不一致程度较高的数据集, 使用原始视图和全局视图对比学习可以更有效的挖掘全局
                 的隐含信息. 由于自监督图对比学习可能也会带来噪声, 而对于                  Amazon  和  Tencent-Weibo  数据集, 这种噪声带来的
                 负面影响可能比自监督挖掘到的有效信息带来的提升要大. 而该模型相对于                       CAMD 表现较差, 判断可能是最大化节
                                                                                +
                 点和另一视图的图表示这种         local-global 的对比学习方式, 对于恶意检测任务而言并不合适, 会带来更多的噪声.
                    观察非同质图方法, 发现大部分方法要优于或接近基于图的恶意节点检测方法, 这说明对于恶意节点检测中
                 存在的数据不一致问题, 使用非同质图方法在标签稀缺的情况下也是有效的, 而这些方法在                             Wiki 数据集上效果都
                 差于  MVGRL, 进一步说明对于      Wiki 数据集, 使用对比学习挖掘图内信息更能提升模型效果.
                    观察除本文     CAMD  方法以外的基于图的恶意节点检测方法, 可以看出这些方法效果下降较为明显, 这可能是
                 因为这些方法都不同程度地基于标签信息对图原始结构做出了改变, 而在标签稀缺时, 这种方式会导致对图原有
                                                           +
                 信息的破坏, 从而导致模型效果下降. 可以看出             CAMD 方法在    Tencent-Weibo  数据集上略差于   CAMD  方法, 这两
                 种方法都使用不一致图神经网络编码器, 而在此数据集上仅使用较少的标签就可以训练得到较好的注意力系数,
                                                                                            +
                 并对聚合过程起到有效的指引作用, 从而在标签稀缺的情况下也可以有较好的分类效果. CAMD 方法在金融领
                 域  T-finance 数据集上的表现优于其他方法. 在标签稀缺情况下, 相比于表               2  中的实验结果, 大多数对比模型在          T-
                 finance 数据集上性能有所下降. 这是因为标记数据的稀缺导致模型在训练过程中获取的信息不足, 无法充分捕捉
                                                 +
                 到节点的分布信息. 相比其他方法, CAMD 在标签稀缺时表现依旧较为优越. 同时, 本文提出的                          CAMD  方法在   T-
                 finance 数据集标签稀缺的情况下, 实验结果也优于其他对比模型.

                 5.5   消融实验
                                                                                       +
                    本节进行消融实验以验证本文提出方法各机制的有效性, 分别对                     CAMD  方法与   CAMD 方法进行消融实验.
   396   397   398   399   400   401   402   403   404   405   406