Page 351 - 《软件学报》2025年第9期
P. 351

4262                                                       软件学报  2025  年第  36  卷第  9  期


                 我们的模型在     MNIST  数据集上实现了较高的       Cpre 和  Crec, 且从混淆矩阵中可以看出, 类标签几乎可以准确分类.
                 对于  CIFAR-10  数据集, 我们注意到, 模型测试整体上表现出较好的性能, 混淆矩阵也展示出图像大体上能够准确
                 分类. 显然, MNIST  上获得了更优的效果, 主要原因是           CIFAR-10  包含大量的彩色图像, 拥有更复杂的本地特征模
                 式, 使得训练获得更优的联邦模型更加困难. 结果表明即使面向更具复杂特征模式的                          CIFAR-10  数据集, 我们的模
                 型仍然能够获得可行的准确度, 这也进一步反映出在                 CEFL  框架下执行   FL  任务具有一定的可行性.

                                             0  2  4  6  8      0.9                       0  2  4  6  8  800
                   0.99                     0  974 974    1 000                          0  698698    700
                                              1 120                                        835
                                              1 120
                                                                                           835
                   0.98                     2   999 999   800   0.8                      2  598 598   600
                                                                                             494
                  数值  0.97                 True label  4  996 996  967  846 846  600  数值  0.7  True label  4  494  692 692  641 641  500
                                                  967
                                                                                                      400
                   0.96                     6       926   400                            6      811 811  300
                                                    926
                                                     1 007
                                                     1 007      0.6                              695 695
                        Cpre                8         931           Cpre                 8        689  200
                                                      931
                                                                                                  689
                   0.95                                   200
                        Crec                           960960   0.5  Crec                           754 754  100
                                               Predicted label  0                           Predicted label
                      0   2   4  6   8                             0  2   4   6  8
                             Label                                        Label
                                      (a) MNIST                                 (b) CIFAR-10
                                                图 4 non-IID  场景下的指标评估

                 4.2.2    离散更新空间  vs. 连续更新空间
                    接下来, 我们对比了      IID  场景下基于连续更新空间在不同的           b 下的防御效果, 并采用      Acc 和  ASR 指标进行评
                 估, 实验结果如表     2  所示.

                                           表 2 不同更新空间下的        Acc 和  ASR 对比  (%)

                                               b = 10%        b = 20%         b = 30%         b = 40%
                      数据集        更新空间
                                            Acc     ASR     Acc     ASR     Acc    ASR      Acc    ASR
                                   连续       99.17   0.20    99.16   0.20   99.10   0.27    99.10   0.31
                      MNIST
                                   离散       96.61   0.56    94.17   0.22   96.72   2.47    93.97   1.12
                                   连续       75.99  12.40    75.90  14.90   75.73   14.50   75.05   14.90
                     CIFAR-10
                                   离散       63.06   6.90    60.56  13.00   61.25   20.60   60.85   23.10
                                   连续       90.33   4.20    90.19   4.00   90.59   4.40    90.46   4.60
                   Fashion-MNIST
                                   离散       86.05   8.90    85.87   8.30   81.83   9.50    71.18   12.40

                    从表  2  可以观察到, 对于    MNIST  数据集, 随着  b 的增加, 在离散更新空间下获得了          Acc, 均高于  93.00%. 比较
                                                   Acc, 下降幅度为                                ASR, 增加幅度
                 连续更新空间, 离散更新空间获得了略低的                            2.38%–5.13%, 同时也实现了略高的
                 为  0.02%–2.20%; 对于  CIFAR-10  数据集, 在离散更新空间下实现了      Acc, 均高于  60.00%. 比较连续更新空间, 离散
                                    Acc, 下降幅度为                                    b = 20%  时,  ASR  分别下降了
                 更新空间实现了略低的                       12.93%–15.34%, 特别地, 在  b = 10%  和
                 5.50%  和  1.90%. 出现上述现象主要是因为连续空间给攻击者提供了更多选择模型更新并在每次更新中快速定位
                 符合自己需求的最优解的机会, 而离散空间大大缓解了这一点, 甚至需要更多轮迭代来准确捕捉到最优解; 对于
                 Fashion-MNIST  数据集, 在离散更新空间下实现了        Acc, 均高于  80.00%, 除了  b = 40% 时获得了  Acc 71.18%. 同样
                 地, 比较连续更新空间, 离散更新空间实现了略低的              Acc 和  ASR, 下降幅度分别为   4.28%–19.28%  以及  4.30%–7.80%.
                 综上, 就防御投毒攻击而言, 结果揭示了           FedDiscrete 引入离散更新空间实施防御的思想具有一定的可行性, 但相
                 较于连续更新空间, 其在一定程度上弱化了模型性能, 这也进一步例证了采用离散更新空间的特点, 同时也反映
                 出  CIFAR-10  数据集具有更强的敏感性. 通过对          Acc  和  ASR  的考虑, 我们推测当恶意攻击者数量不断增加时,
                 FedDiscrete 仍然能够表现出较好的防御性能.

                 4.2.3    不同防御算法下的评估
                    然后, 在  IID  和  non-IID  场景下, 基于   Acc 和  ASR 指标对比了  FedDiscrete 与其他  4  种经典的防御算法在不同  b
                 值下的效果. 特别地, 为了公平性, 我们首先对           FedDiscrete 方法执行离散更新空间的消融实验, 即基于连续更新空间
                                      Acc 比较. 结合第   4.2.2  节的结论“CIFAR-10  更具敏感性”, 因此, 这里只报告      CIFAR-10
                 并兼顾攻击者搭便车来执行
                 下的防御性能, 结果展示在图        5  中. 其中, 图  5(a) 和  (b) 为  IID  场景设置, 图  5(c) 和  (d) 为  non-IID  场景设置.
   346   347   348   349   350   351   352   353   354   355   356