Page 351 - 《软件学报》2025年第9期

P. 351

4262 软件学报 2025 年第 36 卷第 9 期

我们的模型在 MNIST 数据集上实现了较高的 Cpre 和 Crec, 且从混淆矩阵中可以看出, 类标签几乎可以准确分类.
对于 CIFAR-10 数据集, 我们注意到, 模型测试整体上表现出较好的性能, 混淆矩阵也展示出图像大体上能够准确
分类. 显然, MNIST 上获得了更优的效果, 主要原因是 CIFAR-10 包含大量的彩色图像, 拥有更复杂的本地特征模
式, 使得训练获得更优的联邦模型更加困难. 结果表明即使面向更具复杂特征模式的 CIFAR-10 数据集, 我们的模
型仍然能够获得可行的准确度, 这也进一步反映出在 CEFL 框架下执行 FL 任务具有一定的可行性.

0 2 4 6 8 0.9 0 2 4 6 8 800
0.99 0 974 974 1 000 0 698698 700
1 120 835
1 120
835
0.98 2 999 999 800 0.8 2 598 598 600
494
数值 0.97 True label 4 996 996 967 846 846 600 数值 0.7 True label 4 494 692 692 641 641 500
967
400
0.96 6 926 400 6 811 811 300
926
1 007
1 007 0.6 695 695
Cpre 8 931 Cpre 8 689 200
931
689
0.95 200
Crec 960960 0.5 Crec 754 754 100
Predicted label 0 Predicted label
0 2 4 6 8 0 2 4 6 8
Label Label
(a) MNIST (b) CIFAR-10
图 4 non-IID 场景下的指标评估

4.2.2 离散更新空间 vs. 连续更新空间
接下来, 我们对比了 IID 场景下基于连续更新空间在不同的 b 下的防御效果, 并采用 Acc 和 ASR 指标进行评
估, 实验结果如表 2 所示.

表 2 不同更新空间下的 Acc 和 ASR 对比 (%)

b = 10% b = 20% b = 30% b = 40%
数据集更新空间
Acc ASR Acc ASR Acc ASR Acc ASR
连续 99.17 0.20 99.16 0.20 99.10 0.27 99.10 0.31
MNIST
离散 96.61 0.56 94.17 0.22 96.72 2.47 93.97 1.12
连续 75.99 12.40 75.90 14.90 75.73 14.50 75.05 14.90
CIFAR-10
离散 63.06 6.90 60.56 13.00 61.25 20.60 60.85 23.10
连续 90.33 4.20 90.19 4.00 90.59 4.40 90.46 4.60
Fashion-MNIST
离散 86.05 8.90 85.87 8.30 81.83 9.50 71.18 12.40

从表 2 可以观察到, 对于 MNIST 数据集, 随着 b 的增加, 在离散更新空间下获得了 Acc, 均高于 93.00%. 比较
Acc, 下降幅度为 ASR, 增加幅度
连续更新空间, 离散更新空间获得了略低的 2.38%–5.13%, 同时也实现了略高的
为 0.02%–2.20%; 对于 CIFAR-10 数据集, 在离散更新空间下实现了 Acc, 均高于 60.00%. 比较连续更新空间, 离散
Acc, 下降幅度为 b = 20% 时, ASR 分别下降了
更新空间实现了略低的 12.93%–15.34%, 特别地, 在 b = 10% 和
5.50% 和 1.90%. 出现上述现象主要是因为连续空间给攻击者提供了更多选择模型更新并在每次更新中快速定位
符合自己需求的最优解的机会, 而离散空间大大缓解了这一点, 甚至需要更多轮迭代来准确捕捉到最优解; 对于
Fashion-MNIST 数据集, 在离散更新空间下实现了 Acc, 均高于 80.00%, 除了 b = 40% 时获得了 Acc 71.18%. 同样
地, 比较连续更新空间, 离散更新空间实现了略低的 Acc 和 ASR, 下降幅度分别为 4.28%–19.28% 以及 4.30%–7.80%.
综上, 就防御投毒攻击而言, 结果揭示了 FedDiscrete 引入离散更新空间实施防御的思想具有一定的可行性, 但相
较于连续更新空间, 其在一定程度上弱化了模型性能, 这也进一步例证了采用离散更新空间的特点, 同时也反映
出 CIFAR-10 数据集具有更强的敏感性. 通过对 Acc 和 ASR 的考虑, 我们推测当恶意攻击者数量不断增加时,
FedDiscrete 仍然能够表现出较好的防御性能.

4.2.3 不同防御算法下的评估
然后, 在 IID 和 non-IID 场景下, 基于 Acc 和 ASR 指标对比了 FedDiscrete 与其他 4 种经典的防御算法在不同 b
值下的效果. 特别地, 为了公平性, 我们首先对 FedDiscrete 方法执行离散更新空间的消融实验, 即基于连续更新空间
Acc 比较. 结合第 4.2.2 节的结论“CIFAR-10 更具敏感性”, 因此, 这里只报告 CIFAR-10
并兼顾攻击者搭便车来执行
下的防御性能, 结果展示在图 5 中. 其中, 图 5(a) 和 (b) 为 IID 场景设置, 图 5(c) 和 (d) 为 non-IID 场景设置.

346 347 348 349 350 351 352 353 354 355 356