Page 400 - 《软件学报》2025年第5期

P. 400

2300 软件学报 2025 年第 36 卷第 5 期

λ adj 分别设置为 0.5 和 1. 使用 Python 的 Scikit-learn 库中的数据集划分方法, 在保证标签分布一致
息的系数 λ att 和
的情况下, 对 5 个数据集分别进行 10 次随机的划分, 训练集、验证集、测试集的比例分别为 40%、20%、40%,
+
验证 CAMD 方法有效性时, 为了模拟标签稀缺场景, 比例分别为 10%、30%、60%, 原始图节点表示向量 λ 1 和全
λ 2 系数分别设置为 1 和 0.7.
局视图节点表示向量

5.3 对比方法
(1) 仅使用节点特征信息: MLP.
(2) 传统 GNN 模型: GAT [26] 、APPNP [27] .
(3) 非同质 GNN 模型: MixHop [16] 、H2GCN [17] 、GPRGNN [28] .
(4) 图对比学习模型: MVGRL [21] .
[7] [8] [14] [25]
(5) 基于图的恶意节点检测模型: CARE-GNN 、PC-GNN 、H2-FDetector 、GHRN .

5.4 恶意节点检测性能比较

5.4.1 CAMD 对比实验
对比模型和 CAMD 方法在恶意节点检测任务上的对比结果如表 2 所示. 本文以粗体突出显示每个数据集上
的最佳分类效果, 从表中可以看出本文提出的方法 CAMD 表现要优于其他方法. 观察可以发现, Amazon、
YelpChi、Wiki 等数据集仅使用 MLP 就可以接近甚至优于传统 GNN 方法的分类效果, 这说明由于数据不一致性
的存在, 使用 GNN 模型时如果不采取相应的处理策略, 那么在 GNN 的消息传递过程中, 图中节点很可能聚合到
错误的邻域信息, 从而导致学习到的节点表示区分性下降, 影响下游分类任务效果. 观察非同质 GNN 模型在几个
数据集上的表现, 可以发现这些方法在大部分情况下优于传统 GNN, 这说明对于恶意节点检测中存在的数据不一
致问题, 使用非同质图方法是有效的, 其常用的策略如获取高阶邻域信息, 以及使用中间层信息等可以有效地在节
点表示学习过程中获取更多丰富的信息, 增强节点的表达能力.

表 2 CAMD 对比实验结果 (%)

Class Method Amazon YelpChi Wiki Tencent-Weibo T-finance
Features only MLP 96.76 82.37 61.74 77.50 86.09
GAT 82.12 58.34 63.63 97.06 93.88
General GNNs
APPNP 94.08 68.60 62.99 96.82 96.36
GPRGNN 93.39 73.24 60.39 98.99 96.42
Heterophilious GNNs MixHop 97.25 82.43 61.96 97.19 95.69
H2GCN 96.79 84.06 62.73 97.78 95.53
CARE-GNN 94.82 77.48 56.76 91.05 93.26
PC-GNN 96.42 81.04 56.97 95.77 96.62
Graph fraud detection H2-FDetector 96.94 84.60 57.25 94.18 97.15
GHRN 97.02 84.44 63.03 94.93 97.23
CAMD (Ours) 98.21 85.31 65.89 99.22 98.04

观察基于图的恶意节点检测方法在几个数据集上的表现, 首先发现这几个模型在 Amazon 和 YelpChi 数据集
上的效果普遍优于传统 GNN 模型, 这说明相应的恶意检测策略是有效的. 其中 CARE-GNN 和 PC-GNN 基于邻居
选择的思想解决数据不一致问题, 聚合过程中, 去除与自身不相似的邻居节点, 以防止节点特征由于恶意节点的伪
装行为被混淆. 而 H2-FDetector 对于可能为不同类型的邻居节点, 聚合时注意力系数可以为负, 以此种方式防止节
点信息被混淆, 同时引入了节点原型以拉近相同类型节点表示, 其效果要优于前两者. 而 GHRN 则是基于谱域视
角, 将图中存在不一致连接的节点视为高频信号, 构造基于 Laplacian 图的高通滤波器以筛选出异常节点及与之相
连的边, 并进行异常边删除, 其效果是这 4 个对比方法中最好的. 而本文方法 CAMD 同时考虑了不同类型邻居节
点聚合时的注意力系数, 不一致图数据的表示学习, 以及数据不平衡问题, 检测效果优于其他模型.
在金融领域 T-finance 数据集上使用 MLP 进行预测时的效果比传统 GNN 方法差很多, 这说明在此数据集上
节点间的交互关系包含着丰富的信息, 仅使用节点特征无法充分挖掘这些信息, 导致模型分类效果较差. 在

395 396 397 398 399 400 401 402 403 404 405