Page 204 - 《软件学报》2024年第4期
P. 204

1782                                                       软件学报  2024 年第 35 卷第 4 期

             10      end
             11      客户端梯度聚合权重 softmax    ([a 1→ m ,e ,...,a  n   * c p      → me ,  ]) .
             12      对量化梯度进行反量化.
             13      根据权重聚合梯度更新参数 w input , w ,w s .
                                                 l c
             14      根据公式(11)计算奖励 r.
             15      if e>0 then
                                                           m
             16         将经验(s m,e ,a m,e ,r m,e ,s′ m,e )存入本地经验缓冲区 D .
                                                                                   m
                                                                                    ,e
             17         从缓冲区中采样,  根据公式(4)~公式(6)、公式(12)训练 DDPG,  得到梯度 grad          DDPG  .
             18      根据公式(1)~公式(5)训练本地突发事件检测模型,  得到准确率 acc、梯度 grad                m,e+1 .
             19      根据公式(5)、公式(6)得到状态 s     g m ,e+ 1  .
             20      传输 s m g ,e+ 1 、 rad m DDPG 1  、根据量化指令量化的 grad m,e+1  和量化指令至其他客户端.
                                 ,e+
             21      根据聚合权重选择下一轮参与联邦的n*p c 个客户端,  请求梯度、状态,  并向前n*p c *(1−p q )个客
                   户端发送梯度不需要量化的指令
             22   end

         3    实验分析

         3.1   实验数据
             在微博平台收集的公共安全数据集 Weibo 和 3 个公开的图数据集 Cora                  [69] ,  Citeseer [69] 和 MSAcademic [70]
         上进行了大量的实验,  表 1 给出了数据集所对应的详细信息.
                                              表 1   实验数据集

                                 数据集名称      Weibo   Cora   Citeseer   MSAcademic
                                  类别数量        50     7     6        15
                                  节点数量      45 275   2 708   3 312   18 333
                                   边数量     1 785 079   5 429   4 715   81 894
                                  特征维度       1 000   1 433   3 703   6 805

             Weibo 数据集收集了 2023 年 1 月−3 月与电信诈骗相关的微博内容、参与用户、转发关系、标签和多媒
         体信息.  根据“缅北”“东南亚”“缅甸”“东南亚诈骗”“电信诈骗”“保险诈骗”“信用证诈骗”“有价证券诈骗”等关键
         词获取.  共获取微博数据 45  275 条,  采用词袋模型来构造节点的初始特征.  以微博为实体节点,  添加节点间
         的关联作为边:  (1)  如果微博提到了相同的组织或用户,  它们描述的事件就可能存在语义上的相似;  (2)  如果
         微博内容中包含了相同的‘tag’,  通常描述的事件相同;  (3)  如果两条微博包含了相同的图像“URL”,  则被判定
         存在边.
             类别的标签需要尽量有概括性,  随着事件的发展,  新出现的内容可以包含在已经定义好的标签中.  本文
         将数据分为 50 类,  类别中包含了“集资诈骗”“养老保险诈骗”“校园诈骗”和“边境风险”等和电信诈骗高度相关
         的类别标签,  也包含了“境外诈骗警示”“诈骗报道”和“反诈宣传活动”这类官方发布的警示与教育类内容,  还
         包含“宗教文化”“旅游留学”等其他内容.  可以帮助捕获到电信诈骗各类事件的语义信息,  具备将关键信息筛
         选出来的能力.
             在数据划分方面,  为了构建划分各客户端本地的子图数据,  利用了 Louvain 算法                     [71] 在每个数据集上进行
         层次图聚类,  分别划分为 3 个、5 个和 10 个数据规模相近的聚类结果,  为数据所有者生成子图.  每个子图中,
         训练、验证和测试数据的比例被设置为 60%, 20%和 20%. Weibo 数据的训练、验证和测试数据的划分是按照
         时间来划分的,  抽取 60%时间较旧的数据作为训练集,  较新的 40%数据随机划分为验证和测试集.
   199   200   201   202   203   204   205   206   207   208   209