Page 200 - 《软件学报》2024年第4期
P. 200
1778 软件学报 2024 年第 35 卷第 4 期
空间, 但可能会收敛到局部最优. 确定性策略梯度(DPG) [61] 是一种在连续动作空间中使用的策略梯度方法,
直接在确定性策略空间中进行优化. 相比于随机策略的 PG, DPG 在连续动作空间中有更高的采样效率, 但是
模型缺乏稳定性并存在收敛困难. DDPG [62] 是基于深度神经网络的确定性策略梯度算法, 可以更有效地处理
高维连续状态和动作空间. 有效的强化学习智能体需要准确的感知客户端状态. 为了使强化学习智能体感知
客户端状态的同时保护数据的隐私, 可以通过梯度信息感知客户端状态的变化. 但是, 直接将模型梯度作为
状态, 维度过大且稀疏, 会导致强化学习模型难以训练与收敛. 需要构造合适的客户端状, 帮助智能体感知客
户端信息.
2 基于强化联邦图神经网络的个性化公共安全突发事件检测方法 PPSED
2.1 问题定义与方法概述
• 问题定义
1
n
m
在个性化联邦学习中, 通常包一组客户端 C={C ,…,C }, 其中, n 是客户端的数量, C 是第 m 个客户端, 当
不需要区分数据与变量来自于哪个客户端时, 会省略上角标. 每个客户端都保存了本地的图数据 G=(V,E), 其
中, V 是节点集合, E 是边集合. 节点 v i ∈V 的特征向量表示为 h i . 对于邻接矩阵 A, 如果节点 i 和节点 j 之间存
在边, 则 A i,j =1; 否则 A i,j =0. 各客户端由于关注的主题与任务不同, 导致本地数据的特征、标签与图结构都存
在 Non-IID 问题. 并且, 由于公共安全数据的敏感性, 各客户端之间的数据无法自由流动, 只允许共享梯度信
息. 本方法的目标是在数据不出本地的条件下, 帮助各客户端利用多方资源, 训练本地个性化的模型, 帮助完
成本地公共安全突发事件检测任务.
• 方法概述
本文提出了基于强化联邦图神经网络的个性化公共安全突发事件检测方法(personalized public safety
event detection, PPSED), 采用多方协作的方式帮助各客户端训练个性化的模型, 完成本地公共安全事件检测
任务. 设计联邦公共安全突发事件检测模型的本地训练与梯度量化方法, 将突发事件检测建模为一个分类任
务, 采用基于图采样的 minibatch 机制训练 GraphSage 构造公共安全突发事件检测本地模型, 减小全局结构的
Non-IID 对其他客户端的影响. 提高模型对公共安全数据流中新旧数据 Non-IID 问题的鲁棒性. 采用梯度量化
方法对模型梯度进行量化, 支持各客户端在聚合其他客户端模型梯度时, 根据 DDPG 得到的权重选择量化程
度. 设计基于随机图嵌入的客户端状态感知方法, 在不暴露客户端本地数据的情况下, 将客户端的模型梯度
信息转换为低维向量的形式, 保留客户端模型有价值的信息. 设计强化联邦图神经网络的个性化梯度聚合与
量化策略, 基于准确率的提升构建强化学习的奖励 r, 采用深度确定性的策略梯度模型 DDPG, 拟合一个个性
化联邦学习梯度聚合加权策略, 根据权重决定是否可以对梯度进行量化. 联邦过程是去中心化的, 客户端之
间可以直接通信, 在每轮训练后, 各客户端需要分享公共安全突发事件检测模型的梯度、DDPG 模型的梯度、
梯度量化指令和客户端梯度状态. 在生成随机图时, 各客户端需要分享本地数据节点间存在边的比例和节点
特征的均值与标准差信息. 模型的整体结构如下文图 1 所示.
2.2 联邦公共安全突发事件检测模型结构与梯度量化
本文采用基于图采样的 minibatch 机制训练 GraphSage, 本质上是学习一个只需要节点的邻居信息, 而不
需要整个图结构的 GNN, 这样可以更好地处理新的、未见过的节点或图. 采用节点采样和邻居采样抽取较小
的子图训练模型, 从图中随机选择一定数量的节点作为 minibatch 的目标节点, 对于每个目标节点, 从其邻居
节点中随机选择一定数量的节点作为的一阶邻居. 得到一个包含目标节点及其邻居节点的节点集合. 从原图
中抽取相应的边, 生成一个子图. 这个子图包含了目标节点以及多跳邻居节点的信息, 适用于 minibatch
训练.