Page 327 - 《软件学报》2025年第10期
P. 327

4724                                                      软件学报  2025  年第  36  卷第  10  期


                 提的适用于输出为硬标签的目标模型的评估方法对其鲁棒性进行评估. 虽然                          ChatGPT  的输出的为硬标签而中文
                 BERT  的输出为软标签, 但为了将两者在同一基准上比较, 在本节中对于这两个目标模型都仅关注各攻击方法在
                 不同扰动比例下对它们的攻击成功率. 而在第               4.2.1.2  节中再进一步展示加入置信度信息后, 中文          BERT  模型的鲁
                 棒性评估结果.
                    面向新闻分类时, 在目标模型为          ChatGPT  以及中文  BERT  的情况下, 每种攻击方法的攻击成功率、对应的鲁
                                     β 值分别如表    1  和表  2  所示, 其中表格的第   1  列表示各种对抗文本生成方法. 从表          1  和
                 棒性分数   rs 以及扩大系数
                 表  2  中可以看出, 对于绝大多数方法, 攻击成功率均随扰动比例的增加而上升. 将表                     1  和表  2  中结合来看, 可以看
                 出无论是   ChatGPT  还是中文   BERT, 在面对  C_T  的攻击时, 它们的鲁棒性分数均是所有攻击方法中最高的; 而在
                 面对  CBT  的攻击时, 它们的鲁棒性分数则均是所有攻击方法中最低的. 这说明无论是                       ChatGPT  还是中文   BERT
                 均能在很大程度上抵御        C_T  的攻击, 但却较难抵御      CBT  的攻击. 与此同时, 能够发现这两个目标模型面对词语级
                 对抗攻击时的鲁棒性分数明显比面对字符级对抗攻击时的鲁棒性分数低. 这说明相比于字符级对抗文本生成方
                 法, 这两个目标模型更难抵御词语级对抗文本生成方法的攻击. 而将表                     1  和表  2  进行对比可知, ChatGPT  面对各种
                 攻击方法时的平均鲁棒性分数比中文             BERT  高  20%  左右, 这说明相比于中文     BERT, ChatGPT  在对抗攻击下具有
                 更强的鲁棒性.

                                  表 1 面向新闻分类时各方法对          ChatGPT  的攻击成功率及鲁棒性评估

                                                     不同扰动比例    α 下的攻击成功率 (%)
                        方法                                                                          rs
                                   0.05   0.10   0.15    0.20   0.25   0.30   0.35    0.40   0.50
                        C_T        1.24   2.23   2.11    1.86   1.98   2.23   2.23    2.35   2.23   9.59
                        G_R        3.22   3.59   4.58    4.83   4.71   4.21   4.46    4.83   3.72   9.15
                       A_SC        3.22   4.09   3.84    3.84   3.10   2.60   2.48    2.23   2.11   9.39
                        A_G        4.34   5.08   4.71    4.21   3.84   3.35   2.97    2.23   1.61   9.28
                       A_Sh        4.46   4.71   5.33    4.83   5.70   5.58   5.58    4.96   4.71   8.98
                        A_P        3.10   4.46   4.46    4.21   4.46   4.21   4.46    4.58   4.46   9.15
                       A_Sy        3.59   4.46   4.83    5.58   5.58   5.95   6.32    6.44   6.32   8.91
                        TF         5.33   6.69   7.81    8.55   8.92   9.05   8.80    9.05   9.42   8.36
                        CBT        7.93   11.28  13.88  14.37   15.12  16.85  16.98  17.22  16.60   7.11
                   平均鲁棒性分数    rs                                    8.88
                            β                                        2
                     扩大系数


                             表 2 面向新闻分类时各方法对中文            BERT  的攻击成功率及鲁棒性评估         (硬标签)

                                                     不同扰动比例    α 下的攻击成功率 (%)
                        方法                                                                          rs
                                    0.05   0.10   0.15   0.20   0.25   0.30   0.35   0.40   0.50
                        C_T         0.10   0.10   0.00   0.00   0.00   0.00   0.00   0.00   0.00   10.00
                        G_R         3.84   5.60   7.16   8.92   11.20  13.49  15.77  16.80  18.57  7.75
                       A_SC         4.15   7.26   9.96  11.72   13.49  14.42  15.46  15.87  16.70  7.58
                        A_G         4.56   7.26  11.31  12.86   15.98  18.36  21.06  22.82  24.27  6.92
                       A_Sh         0.21   0.52   0.73   0.62   0.52   0.41   0.52   0.62   0.62   9.89
                        A_P         1.35   1.45   2.18   2.28   2.70   2.70   2.59   2.59   2.59   9.55
                       A_Sy         4.46   7.47  10.17  12.66   14.73  17.53  18.57  19.5   20.64  7.21
                        TF          9.02  14.21  19.50  22.82   24.90  28.42  30.39  32.37  36.72  5.15
                        CBT        18.67  26.35  34.02  37.66   41.18  43.78  46.27  48.34  51.35  2.28
                   平均鲁棒性分数    rs                                   7.37
                     扩大系数   β                                       2

                    面向情感倾向分类时, 在目标模型为            ChatGPT  以及中文  BERT  的情况下, 每种攻击方法的攻击成功率、对应
                                β 值分别如表    3  和表  4  所示. 表  3  和表  4  中的数据规律与表  1  和表  2  中类似, 因此可以得到与
                 的鲁棒性分数以及
   322   323   324   325   326   327   328   329   330   331   332