Page 353 - 《软件学报》2025年第9期
P. 353
4264 软件学报 2025 年第 36 卷第 9 期
对于 CIFAR-10, 如图 6(b) 所示, b 的增加对 Acc 没有显著的影响, 其始终稳定在 60.56%–63.06% 之间, 但显然
,
,
低于 b = 0 时获得的 Acc 71.31%. 同时, 随着 b 从 10% 增加到 40% Cpre tc Crec tc 和 F1 tc 均呈现下降趋势, 甚至在
b = 40% 时实现了 Cpre tc 36.80%, Crec tc 41.00% 和 F1 tc 39.50%. 实验结果表明恶意攻击者数量的增加对 FL 子任
务的性能有着显著的影响, 甚至难以准确识别出目标标签, 这也为进一步开发更鲁棒的防御机制提供思路.
ASR 评估: 然后, 我们采用 ASR 指标分析 FedDiscrete 防御在 3 种数据集下的性能. 具体而言, 从图 6(c) 中可
b 的增加, 比较 CIFAR-10, FedDiscrete 在 MNIST ASR 变化幅度较小, 仅为 2.25%, 并
以发现, 随着 数据集下求解的
稳定在 1.09% 左右, 在 Fashion-MNIST 数据集下同样实现了较小的变化幅度 4.10%. 相反, 在 CIFAR-10 下实现了
16.20% 的变化幅度, 即从 6.90% 增加到 23.10%, 结合第 4.2.3 节, 我们知道 FedDiscrete 仍然实现了较低的 ASR. 结
果表明我们的 FedDiscrete 方案应用在 IID 场景下具有明显的优势.
混淆矩阵评估: 为了更直观地展示 FedDiscrete 在不同 b 下的防御性能, 我们采用混淆矩阵进行评估. 从图 7
和图 8 中可以看到, FedDiscrete 在 MNIST 数据集上总是保持着更好的分类效果; 而在 CIFAR-10 数据集下获得了
相对大的分类误差, 但大体上仍能够识别, 这主要是因为 CIFAR-10 虽然表现出较强的敏感性, 但 FedDiscrete 更擅
长学习本地更新的关键特征模式, 特别是在分类任务中. 而且, 随着 b 的增加, 两种数据集下的模型分类效果呈现下降
趋势.
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
1 000 1 000 1 000
0 971 0 946 0 972 0 943 1 000
971
972
943
946
1 121
1 121 1 117 1 112 1 123
1 123
1 112
1 117
2 997997 964 800 2 943 800 2 1 003 800 2 959959 800
943
1 003
True label 4 969 875 600 True label 4 919 964 853 600 True label 4 1 004 962 857 600 True label 4 997 967967 873 600
964
997
919
1 004
969
962
964
875
873
853
857
887887
6
887
797
939
972
1 006
951 400 6 939 1 004 400 6 887 972 400 6 797 1 006 400
1 004
951
8 964 8 957 8 928 8 775
964
928
775
957
962
962 200 775 200 975 200 957 200
775
957
975
Predicted label
0 Predicted label 0 Predicted label 0 Predicted label 0
(a) b=10% (b) b=20% (c) b=30% (d) b=40%
图 7 在 MNIST 数据集上不同 b 下混淆矩阵评估
0 2 4 6 8 0 2 4 6 8 800 0 2 4 6 8 800 0 2 4 6 8 800
0 509 700 0 490490 700 0 463 700 0 621621 700
509
463
817
697
789 600 697 665 817
789
665
2 609 329 500 2 321 480 600 2 412 600 2 458 476 600
609
458
321
412
True label 4 331 723 400 True label 4 402 781 400 True label 4 497 490 598 500 True label 4 583 394 500
476
329
500
497
480
583
402
490
331
400
400
723
781
394
598
6
848
582582
753
768
685
685 300 6 753 562 300 6 768 646 300 6 848 728728 300
646
562
8 732 200 8 757 200 8 769 200 8 654 200
732
769
757
654
817
796
813
796 100 813 100 817 100 727 100
727
Predicted label 0 Predicted label Predicted label Predicted label 0
(a) b=10% (b) b=20% (c) b=30% (d) b=40%
图 8 在 CIFAR-10 数据集上不同 b 下混淆矩阵评估
综上所述, 实验结果表明, 即使面临不同的攻击者数量造成的动态的攻击能力, 我们的防御方案 FedDiscrete
仍能够展示出较强的鲁棒性, 这也反映出兼顾模型更新的本地特征模式和借助参与者的贡献大小权衡公平性的策
略是可行的, 有利于提高防御效果. 此外, 这个结果也进一步证实了我们在第 4.2.2 节的推测.
4.2.5 不同攻击场景下的评估
在这个部分中, 我们调查了 FedDiscrete 在不同攻击场景下的性能, 并进一步与现有的防御方法进行比较.
1) Acc 评估: 表 3 给出了 FedDiscrete 和现有其他防御方法的比较, 包括 Krum, FLTrust, Trimmed-mean, Auror
和 PEFL. 通过执行相同的迭代轮数 ( R = 100), 探讨 MNIST 数据集下不同的防御方法在 b = 50% 时的 Acc 效果, 其
中, 我们的方法在 IID 场景下仅执行迭代轮数 R = 50. 可以注意到, 在 IID 和 non-IID 设置下, 我们的防御方法均获
Acc, 分别为 88.34% 和 78.99%. 具体来说, 对于 Trimmed-mean, 在 non-IID Acc 47.0%, 比较我
得较好的 下实现了
们的方法, 其下降了 Acc 31.99%, 这主要是因为该防御易于遭受攻击者数量的影响; 对于 Krum, 其在两种设置下
均表现欠佳; 对于 FLTrust 和 Auror, 这两个方法分别表现出极端的结果, 例如, FLTrust 在 IID 设置下表现出最差

