Page 202 - 《软件学报》2024年第4期
P. 202

1780                                                       软件学报  2024 年第 35 卷第 4 期

         2.3   基于随机图嵌入的客户端状态感知
             为了在保护客户端数据隐私的同时使 DDPG 更好地感知各个客户端的状态,  从而更有效地进行联邦学习
         中梯度的加权操作,  本文提出了一种基于随机图嵌入的客户端状态感知方法.  参考 Baek 等人                          [29] 将随机数据输
         入到不同的模型中,  根据输出随机图嵌入的差异判断模型差异的思想,  本方法通过数据原型技术                                [65,66] 消除随
         机图嵌入数据冗余,  通过随机图嵌入的数据原型,  帮助智能体感知客户端状态.
             为了使随机图的数据原型可以更好地表示客户端状态,  需要构建一个数据多样的全局统一随机图 G r =(V r ,
         E r ,H r ).  图节点数目可以根据需求定义,  节点之间存在边的概率是根据各客户端节点之间存在边的概率均值决
         定的.  节点的特征 H r 是基于各客户端节点特征的分布信息.  构造一个全局数据的分布,  通过对新的分布进行
         随机采样得到随机图节点特征.  将随机图输入客户端 m 的 GraphSage,  得到所有节点的表示后取均值,  作为本
         地模型的状态表示,  如公式(5)所示:
                                       s m par  = mean (GraphSage m (G H r ))                 (5)
                                                            ,
                                                           r
         可以得到特定客户端的模型状态.  在联邦学习中,  各客户端需要聚合的是梯度.  为了使强化学习感知梯度的
         状态,  使用本轮训练后的模型状态减去本轮训练前的模型状态获取梯度的状态 s                          m g  ,e  ,  其中, m 代表来自第 m 个
         客户端, e 代表第 e 轮训练,  如公式(6)所示:
                                                        ,
                                             s m g  ,e  =  s m par ,e  −  s me− 1             (6)
                                                       par
             随着训练的进行,  各个客户端的模型状态会发生变化,  这种变化可以通过梯度的状态得到体现.  通过分
         析梯度的状态,  可以帮助强化学习模型感知模型参数更新的情况,  从而对梯度的加权与量化进行决策.  解决
         了传统降维方法可能存在的信息丢失问题,  在保留了客户端信息的同时减小状态的维度,  提高模型训练的效
         率,  同时减小了通信的压力.
         2.4   强化联邦图神经网络的个性化梯度聚合与量化策略

             在个性化联邦梯度聚合工作中,  通过多方协作的方式,  为每个客户端训练一个本地的突发事件检测模型
         和 DDPG 模型.  在第一轮训练中,  各客户端对模型参数进行统一的初始化.  每轮训练中,  每个客户端都会接收
         到其他客户端本轮训练的梯度.  除了学习最优的客户端选择策略以外,  还需要根据不同客户端梯度对本地模
         型的重要性赋予梯度权重.  根据重要性决定是否对梯度进行量化后再传输,  以减小通信压力.
             本文采用 DDPG 拟合一个最优的梯度加权与量化策略. DDPG 包含采用深度神经网络构建的行动者(actor)
         和评论家(critic). Actor f a 根据状态 s 选择最优的梯度聚合权重 a=f a (s). Critic f c 评估 Actor 选择的动作,  根据给
         定的状态-动作对(s,a),  预测期望的回报 q=f c (CONCAT(s,a)).
             在训练过程中, DDPG 采用了经验回放(experience replay)和目标网络(target networks)两种机制来增强模
         型的稳定性.  经验回放是指从环境中采样状态 s,  根据状态 s 使用 Actor 网络 f a 选择动作 a.  执行动作 a,  从反
         馈中得到奖励 r 和新的状态 s′,  得到经验(s,a,r,s′)后存储到缓冲区,  然后从缓冲区中随机采样一批经验来进行
         训练.  评论家网络和 Actor 网络的训练可以看作是最小化两个损失函数的过程.  对于 Critic 网络,  定义损失函
         数为预测的 q 值和目标 q 值之间的均方误差,  如公式(7)所示:
                                      c w L =  s , , ,ar s′∼ D [( (f CONCAT ( , ))s a −  z ) ]    (7)
                                                                  2
                                                  c
         其中, D 是缓冲区,  用来保存经验, z 是目标 q 值,  计算方法见公式(8):
                                         z=r+γf c′ (CONCAT(s′,f a′ (s′)))                     (8)
         其中,  γ是折扣因子,  f a′ 和 p c′ 分别为目标 Actor 网络和目标 Critic 网络.  此损失函数表示了 Critic 网络预测的 q
         值和实际经验的目标 q 值之间的差距.  对于行动者网络,  定义损失函数为预期回报的负值,  如公式(9)所示:
                                        w L  a = − sD∼  [ (f CONCAT ( ,s f a ( )))]s         (9)
                                                 c
             本研究将客户端加权过程构建为马尔科夫决策过程,  具体设计如下.
             状态设计.  在聚合梯度过程中, DDPG 需要决定如何为本地和其他客户端的梯度分配权重.  状态 s 的设计
   197   198   199   200   201   202   203   204   205   206   207