Page 205 - 《软件学报》2024年第4期
P. 205

管泽礼  等:  基于强化联邦 GNN 的个性化公共安全突发事件检测                                               1783


         3.2   实验设置
             公共安全突发事件检测网络包含一个映射层、两层 GraphSage 和一个分类层.  在 GraphSage 的每一层中
         的节点采样数为 5, batch 大小 32,  训练 epoch 设置为 80.  学习率分别为 0.001 和 0.000  1.  在 Python 中实现了
                                                                                        [8]
         所有方法,  在具有 1 个 NVIDIA 3080 Ti GPU 的服务器上执行了所有实验.  本文将图神经网络 GCN , GAT                   [46]
                    [7]
         和 GraphSage 分别用联邦学习方法 FedAvg        [26] 和个性化联邦学习 FedProx   [32] 进行联邦化,  构造联邦图神经网
         络. GCN,  GAT,  GraphSage 设置参考 FedGraphNN [27] .  除了通过上述方法构造的 6 个基线算法方法以外,  还对
         比了采用 minibatch 机制的 FedSage  [57] 、采用元学习与自我监督技术的 GraphFL        [53] 和去中心化的个性化联邦学
         习方法 SpreadGNN  [28] .  其中, GraphFL 的编码器采用了 GCN, SpreadGNN 的编码器为 GraphSage,  分类层采用
         了一层神经网络.  基线算法的分类器设置参考 FedGraphNN,  学习率设置是在 0.1−0.0001 中选择最优的学习率
         记录分类准确率      [57] 结果.  对客户端数量 n 设置为[3,5,10],  参与聚合的客户端比例 p c 设置为[1,0.8,0.5].  在通信
         优化实验中,  探索了被选中的客户端梯度量化的比例 p q 对通信量与模型效果的影响.  在消融实验中,  探索了
         各组件的有效性.
         3.3   对比实验
             分别在 Weibo,  Cora,  Citeseer 和 MSAcademic 数据集上比较了 PPSED 方法与所有基线算法方法.  在不同
         客户端数量 n 和不同参与聚合的客户端比例 p c 的设置下进行了大量的实验,  实验结果见表 2−表 5. PPSED 方
         法在所有的数据集和不同的设置中都显著优于其他的方法,  这表明 PPSED 方法对于公共安全突发事件检测以
         及图数据处理的效果是显著的,  在不同环境下都能保持稳定的高性能.  GraphFL 和 SpreadGNN 的效果在所有
         数据集上的性能均不突出,  与其他基于 GCN 和 GraphSage 的方法相比提升不明显,  无法有效地处理数据分布
         的异质性. FedSage 方法的性能通常弱于 PPSED,  但仍优于其他方法.  这是因为 FedSage 同样采用了图采样与
         minibatch 机制来训练本地模型,  具有一定的鲁棒性.  但是该方法的联邦过程没有根据各客户端梯度的重要性
         来对梯度加权,  导致不重要的客户端对其他客户端进行干扰,  没有预先剔除冗余特征.  其他方法在客户端数
         量和选择率变化时,  它们的性能波动更大.  这是由于它们对于非独立同分布(Non-IID)数据的处理能力较弱.
         如图 2 所示,  其中,  图 2(a)是参与聚合的客户端比例 p c 设置为 1 的结果,  图 2(b)是 p c 设置为 0.8 的结果.  在这
         些方法中,  FedAvg+sage 与 FedProx+sage 的 GraphSage 虽然是全采样的,  但是结构的异质性对它影响也较小,
         与基于 GCN 与 GAT 的方法相比较,  更能适应这种异质性.  当参与聚合的客户端比例下降时,  所有方法的性能
         会下降.  然而, PPSED 的性能下降较少,  这表明本方法更能适应数据稀疏性的影响.  在所有数据集中,  随着客
         户端数量的增加,  所有方法的性能会下降,  这是因为数据在被划分为多个客户端时会损失大量的边. PPSED
         的性能下降幅度较小,  这表明本方法可以更好地处理这种结构上的损失.
                                     表 2   在数据集 Weibo 上的准确率对比
                                     p c=1               p c=0.8              p c=0.5
                     方法
                              n=3    n=5    n=10   n=3    n=5   n=10   n=3    n=5    n=10
                  FedAvg+GCN   0.468 9   0.459 0   0.430 8   0.467 6   0.437 2   0.421 5   0.397 5   0.484 3   0.500 6
                  FedAvg+GAT   0.506 1   0.503 4   0.456 1   0.507 0   0.471 8   0.555 4   0.496 5   0.535 7   0.561 4
                  FedAvg+sage   0.618 7   0.585 3   0.496 9   0.602 9   0.550 1   0.516 0   0.472 3   0.481 7   0.542 3
                  FedProx+GCN   0.471 2   0.433 8   0.424 1   0.469 2   0.429 8   0.403 2   0.410 5   0.504 4   0.524 9
                  FedProx+GAT   0.524 9   0.517 3   0.455 3   0.498 6   0.435 2   0.419 1   0.468 1   0.515 3   0.556 9
                  FedProx+sage   0.604 0   0.557 5   0.493 0   0.620 9   0.569 3   0.519 5   0.352 2   0.461 8   0.568 7
                   GraphFL   0.463 9   0.434 1   0.450 3   0.463 7   0.439 5   0.447 0   0.454 5   0.451 5   0.437 9
                  SpreadGNN   0.630 3   0.608 4   0.601 3   0.624 3   0.547 4   0.552 6   0.625 7   0.568 5   0.522 0
                    FedSage   0.700 0   0.680 0   0.643 8   0.677 1   0.650 1   0.624 2   0.625 0   0.612 5   0.598 9
                    PPSED    0.782 9   0.734 9   0.702 3   0.745 2   0.718 5   0.692 9   0.732 6   0.703 5   0.675 2
   200   201   202   203   204   205   206   207   208   209   210