Page 404 - 《软件学报》2025年第5期
P. 404
2304 软件学报 2025 年第 36 卷第 5 期
首先发现在每个数据集上, 注意力系数都可以自适应的在一致边上学习到更大的权重, 而在不一致边上学习
较低的权重. 因此在聚合邻域信息的过程中, 可以聚合到更多同类节点的信息, 而减少不同类型节点信息的聚合.
不同于部分恶意节点检测方法, 通过对图中的边进行裁剪或添加来解决数据不一致问题, 这种机制可能会破坏图
原本的信息, 从而导致在不一致性程度低数据集上起到负作用. 本文提出的注意力系数不改变图结构, 在数据不一
致程度高的数据集 (Amazon) 和数据不一致性程度低的数据集 (Tencent-Weibo) 都可以有效提升模型效果.
此外, 可以发现注意力系数在 Amazon、Tencent-Weibo 和 T-finance 上对不同类型的边的权重分布差别较明
显, 而在 YelpChi 和 Wiki 数据集上并没有拉开太大的差距, 通过对两个数据集的信息进行分析, 判断这可能是由
于在这两个数据集上, 仅依靠原始特征信息来判断节点的类型属性是相对不充分的, 与此同时由于不一致程度过
高, 在图神经网络上的学习过程也无法给予注意力系数较为充分的类别信息. 通过观察第 5.4.1 节中 MLP 模型在
各数据集上的分类 AUC 分数也可看出, 虽然 YelpChi、Wiki、Tencent-Weibo 在仅使用特征信息进行分类时效果
都较为一般, 但由于 Tencent-Weibo 的图数据中包含着丰富的信息且数据不一致性较低, 也可以在训练时给注意
力系数相应的信息. 因此, 在 YelpChi 这类数据集上, 使 λ adj 较大, λ att 较小, 使中间层组合机制发挥主要作用, 注意
力系数发挥辅助作用可能会更有效地提升模型效果.
5.7 标签信息鲁棒性实验
+
为了验证本文中 CAMD 方法对于不同程度标签稀缺恶意节点检测任务场景的自适应效果, 引入本节标签信
息鲁棒性实验. 其中为了更细致地观察本方法在低标签比例情况下的表现与鲁棒性, 对于 1%–20% 之间每 5% 设
置一个观测点, 对于 20%–40% 之间每 10% 设置一个观测点. 综上所述, 在训练集占比分别为 1%, 5%, 10%, 15%,
20%, 30%, 40% 的数据集上进行实验, 观察不同模型在 5 个数据集上的表现, 本节中的对比模型为本文第 3 节模
+
型 CAMD, 两个表现较好的基于图神经网络的恶意节点检测模型 GHRN 和 PC-GNN, 以及与 CAMD 全局视图思
想相似的 APPNP 模型, 实验中验证集和测试集在剩余数据中占比为 1:2, 具体实验结果如图 6 所示.
100 90
80
95
AUC (%) + AUC (%) 70
90 CAMD (ours)
CAMD (ours)
+
GHRN 60 CAMD (ours) CAMD (ours)
PC-GNN GHRN PC-GNN
APPNP APPNP
85 50
1 5 10 15 20 30 40 1 5 10 15 20 30 40
Label rate (%) Label rate (%)
(a) Amazon 标签信息鲁棒性 (b) YelpChi 标签信息鲁棒性
70 100
65
90
AUC (%) 60 AUC (%) 80 CAMD (ours)
+
55
CAMD (ours)
GHRN
CAMD + (ours) CAMD (ours) PC-GNN
50
GHRN PC-GNN 70 APPNP
APPNP
45
1 5 10 15 20 30 40 1 5 10 15 20 30 40
Label rate (%) Label rate (%)
(c) Wiki 标签信息鲁棒性 (d) Weibo 标签信息鲁棒性
图 6 标签信息鲁棒性可视化