Page 199 - 《软件学报》2024年第4期
P. 199
管泽礼 等: 基于强化联邦 GNN 的个性化公共安全突发事件检测 1777
1.2 图神经网络
图神经网络(GNN)可以从不同领域的复杂图结构数据中学习表示, 如药物发现 [42,43] 、社交网络 [1,15,41] 、推
荐系统 [18,44] 和交通流建模 [16,45] . 采用图神经网络可以从公共安全数据中发现突发事件. 近年来, 图卷积网络
[8]
(GCN) 和 GAT [46] 显著提高了图模型节点分类的水平. 然而, 由于 GNN 同时利用实体节点特征和图结构中的
拓扑信息进行推理, 因此它容易受到图结构扰动的影响 [47,48] . 鲁棒 GNN 减少了因图结构扰动导致 GNN 性能
退化的问题. 鲁棒 GNN 主要关注对修改节点特征的修剪 [49] 或在图中添加/删除边 [50] 的敏感性. 需要特别关注
[7]
各个机构与组织由于关注的主题与任务不同导致的数据和图结构的 Non-IID 问题. GraphSage 可以融合实体
与实体邻居信息构造实体节点的低维稠密向量化表示, 它的本质上是学习一个能够将节点邻居信息聚合到节
点特征表示的聚合函数. GraphSage 采用了归纳学习的策略, 即: 它只需要节点的邻居信息, 而不需要整个图
的结构, 因此可以更好地处理新的、未见过的节点或图, 具有较好的泛化能力.
1.3 联邦学习
联邦学习支持以多方协作的方式在不共享本地数据的情况下, 利用多方的知识训练模型 [51] . FedAvg [26] 中,
每个客户端在本地训练模型后将训练好的模型传输到服务器, 服务端聚合模型权重, 将聚合的模型发回给客
户端. 然而, 客户端本地数据可能存在较大差异, 因此, 如何解决各客户端数据的 Non-IID 是一个关键问题.
Li 等人提出了 FedProx [32] , 采用一个联邦正则化项, 最小化局部模型和全局模型之间的权重差异, 防止局部模
型发散的同时, 保留了一定的个性化自由度. 当各个客户端数据极度异构时, 就不能错误地假设一个全局模
型可以适合所有客户端. 需要为每个客户端协同训练个性化模型, 而不是学习单一的全局模型. Arivazhagan
等人 [52] 提出了 FedPer 在共享基本层的同时, 为每个客户端提供本地个性化层, 利用全局知识的同时保留本地
知识, 克服数据 Non-IID 带来的不良影响.
个性化联邦学习在联邦图神经网络的研究中有着广泛的应用. He 等人 [27] 提出了一个联邦图神经网络框架
[8]
[7]
FedGraphNN, 对现有的 GCN , GAT [46] 和 GraphSage 等图神经网络模型结合 FedProx, FedAvg 方法实现了联
邦化, 但是没有考虑到数据的 Non-IID 对模型的影响. GraphFL [53] 采用元学习与自我监督技术, 更充分地利用
数据信息, 增强模型泛化能力, 提高联邦学习效果. SpreadGNN [28] 提出了去中心化的个性化联邦学习方法, 分
散周期平均随机梯度下降方法与任务正则化方法, 来提高个性化联邦学习应对 Non-IID 问题的能力. 但是这
两种方法的效果还不够理想. Scardapane 等人 [54] 提出了一种分布式 GNN 训练算法, 在客户之间分享邻居特征
和 GNN 层中间输出特征. BDS-GCN [55] 在联邦训练的过程中, 对跨客户端邻居进行采样. 这两种方法不但通信
成本很高, 而且有泄露隐私的风险. FedGCN [56] 对联邦训练过程中邻居信息的通信与采样过程进行了优化, 但
是没有解决有泄露隐私风险的问题. FedSage+ [57] 基于节点表示补全客户端图数据缺失的邻居信息, 需要分享
具有生成客户端本地数据能力的模型, 存在数据泄露的风险容易受到数据重构攻击的问题, 对缺失节点与特
征的补全能力有限.
1.4 强化学习
强化学习已经广泛应用到机器人控制 [33] 、图神经网络节点选择 [34] 、自然语言处理 [35] 等任务中.
Q-Learning [58] 是一种经典的强化学习方法, 适用于离散状态和动作空间, 它将智能体与环境交互的过程建模
为马尔科夫决策过程, 通过迭代更新 Q 函数, 从而得到最优策略. DQN [59] 是一种结合深度学习和 Q-Learning
的方法, 使用深度神经网络拟合 Q 函数. DQN 解决了传统 Q-Learning 在处理高维、连续状态空间时的困难. 强
化学习在联邦学习和图神经网络中有着广泛的应用, 在 GNN 的节点聚合过程中, 采用强化学习对节点进行选
择, 拟合节点选择策略 [34,41] . 将强化学习引入到联邦学习模型聚合过程中, 客户端状态是通过模型参数降维
得到的 [25] . 随着模型训练参数的重要性会发生改变, 如果不改变降维规则, 参数信息就会损失; 如果改变降
维规则, 则状态空间会发生改变使强化学习失效. 个性化联邦学习中根据各客户端模型差异对梯度进行加权
后聚合 [28,29] , 解决了数据 Non-IID 的问题, 也降低了梯度信息的损失.
策略梯度(PG)方法 [60] 直接在策略空间中优化策略, 通过梯度上升最大化累积奖励, PG 能够处理连续动作