Page 204 - 《软件学报》2024年第4期
P. 204
1782 软件学报 2024 年第 35 卷第 4 期
10 end
11 客户端梯度聚合权重 softmax ([a 1→ m ,e ,...,a n * c p → me , ]) .
12 对量化梯度进行反量化.
13 根据权重聚合梯度更新参数 w input , w ,w s .
l c
14 根据公式(11)计算奖励 r.
15 if e>0 then
m
16 将经验(s m,e ,a m,e ,r m,e ,s′ m,e )存入本地经验缓冲区 D .
m
,e
17 从缓冲区中采样, 根据公式(4)~公式(6)、公式(12)训练 DDPG, 得到梯度 grad DDPG .
18 根据公式(1)~公式(5)训练本地突发事件检测模型, 得到准确率 acc、梯度 grad m,e+1 .
19 根据公式(5)、公式(6)得到状态 s g m ,e+ 1 .
20 传输 s m g ,e+ 1 、 rad m DDPG 1 、根据量化指令量化的 grad m,e+1 和量化指令至其他客户端.
,e+
21 根据聚合权重选择下一轮参与联邦的n*p c 个客户端, 请求梯度、状态, 并向前n*p c *(1−p q )个客
户端发送梯度不需要量化的指令
22 end
3 实验分析
3.1 实验数据
在微博平台收集的公共安全数据集 Weibo 和 3 个公开的图数据集 Cora [69] , Citeseer [69] 和 MSAcademic [70]
上进行了大量的实验, 表 1 给出了数据集所对应的详细信息.
表 1 实验数据集
数据集名称 Weibo Cora Citeseer MSAcademic
类别数量 50 7 6 15
节点数量 45 275 2 708 3 312 18 333
边数量 1 785 079 5 429 4 715 81 894
特征维度 1 000 1 433 3 703 6 805
Weibo 数据集收集了 2023 年 1 月−3 月与电信诈骗相关的微博内容、参与用户、转发关系、标签和多媒
体信息. 根据“缅北”“东南亚”“缅甸”“东南亚诈骗”“电信诈骗”“保险诈骗”“信用证诈骗”“有价证券诈骗”等关键
词获取. 共获取微博数据 45 275 条, 采用词袋模型来构造节点的初始特征. 以微博为实体节点, 添加节点间
的关联作为边: (1) 如果微博提到了相同的组织或用户, 它们描述的事件就可能存在语义上的相似; (2) 如果
微博内容中包含了相同的‘tag’, 通常描述的事件相同; (3) 如果两条微博包含了相同的图像“URL”, 则被判定
存在边.
类别的标签需要尽量有概括性, 随着事件的发展, 新出现的内容可以包含在已经定义好的标签中. 本文
将数据分为 50 类, 类别中包含了“集资诈骗”“养老保险诈骗”“校园诈骗”和“边境风险”等和电信诈骗高度相关
的类别标签, 也包含了“境外诈骗警示”“诈骗报道”和“反诈宣传活动”这类官方发布的警示与教育类内容, 还
包含“宗教文化”“旅游留学”等其他内容. 可以帮助捕获到电信诈骗各类事件的语义信息, 具备将关键信息筛
选出来的能力.
在数据划分方面, 为了构建划分各客户端本地的子图数据, 利用了 Louvain 算法 [71] 在每个数据集上进行
层次图聚类, 分别划分为 3 个、5 个和 10 个数据规模相近的聚类结果, 为数据所有者生成子图. 每个子图中,
训练、验证和测试数据的比例被设置为 60%, 20%和 20%. Weibo 数据的训练、验证和测试数据的划分是按照
时间来划分的, 抽取 60%时间较旧的数据作为训练集, 较新的 40%数据随机划分为验证和测试集.