Page 328 - 《软件学报》2025年第10期
P. 328

张云婷 等: 中文对抗攻击下的        ChatGPT  鲁棒性评估                                           4725


                 之相同的结论. 将表      1、表  2  与表  3、表  4  对比可知, 前者的  β 大于后者的    β 值. 这说明面向新闻分类任务时两模
                 型的鲁棒性优于面向情感倾向分类任务时的鲁棒性.


                                  表 3 面向情感分类时各方法对          ChatGPT  的攻击成功率及鲁棒性评估

                                                      不同扰动比例    α 下攻击成功率 (%)
                        方法                                                                          rs
                                    0.01   0.03   0.05   0.10   0.15   0.20   0.25    0.30   0.40
                        C_T         0.35   0.35   0.46   0.23   0.69   0.69   0.81    0.46   0.69   9.95
                        G_R         1.62   1.96   2.89   3.23   3.23   4.16   3.35    3.58   3.93   9.69
                       A_SC         2.66   4.16   3.70   4.97   5.89   5.66   5.31    4.97   5.20   9.53
                        A_G         2.89   3.46   4.62   8.31   9.70   9.70   10.51   8.66   8.31   9.26
                       A_Sh         1.73   1.50   2.54   2.89   3.81   4.16   3.23    3.81   4.16   9.69
                        A_P         1.62   1.73   2.08   3.46   3.35   3.70   3.70    4.04   3.35   9.70
                       A_Sy         2.19   3.23   3.12   4.62   6.24   7.39   9.12   10.28  11.20   9.36
                        TF          6.24   7.62   8.78  15.59   20.44  24.71  27.02  27.48  28.41   8.15
                        CBT        11.32   13.86  14.9  25.64   32.22  35.57  39.38  42.03  42.38   7.14
                   平均鲁棒性分数    rs                                    9.16
                     扩大系数   β                                        1

                             表 4 面向情感分类时各方法对中文            BERT  的攻击成功率及鲁棒性评估         (硬标签)

                                                     不同扰动比例    α 下的攻击成功率 (%)
                        方法                                                                          rs
                                    0.01   0.03   0.05   0.10   0.15    0.20   0.25   0.30   0.40
                        C_T         0.11   0.11   0.11   0.00   0.11    0.11   0.11   0.11   0.11   9.99
                        G_R         3.90   4.21   5.37   7.80   9.27   10.33  10.96  11.49   11.80  9.17
                       A_SC         4.11   4.64   5.48   8.54   11.38  12.12  12.64  13.80   14.44  9.03
                        A_G         9.06  11.28   13.17  22.55  28.03  33.09  36.78  39.09   43.73  7.37
                       A_Sh         1.16   1.37   1.37   1.48   2.00    2.21   2.11   2.00   2.00   9.83
                        A_P         3.37   3.69   4.21   5.37   6.11    6.22   6.43   6.53   6.53   9.46
                       A_Sy        10.96  12.75   16.65  24.76  32.35  37.72  42.89  47.21   50.58  6.93
                        TF         16.54  20.13   25.08  37.93  48.05  54.48  60.17  64.81   68.60  5.60
                        CBT        29.19  33.83   41.10  56.16  65.44  69.97  74.29  77.03   80.93  4.13
                   平均鲁棒性分数    rs                                    7.95
                     扩大系数   β                                        1

                  4.2.1.2    面向软标签的鲁棒性评估结果
                    本节以中文     BERT  为例, 将置信度信息作为衡量输出为软标签的目标模型鲁棒性的指标之一, 分别在新闻分
                 类和情感倾向分类数据集上计算中文             BERT  模型在各种对抗攻击下的鲁棒性分数.
                    根据第   3.1.3.2  节中所述, 面向软标签的鲁棒性分数由两部分构成, 分别是基于置信度的鲁棒性分数以及基于
                 攻击成功率的鲁棒性分数. 表         5  展示了各对抗文本生成方法攻击面向新闻分类任务的中文                   BERT  模型时, 生成的
                 高置信度对抗文本占比、对应的基于置信度的鲁棒性分数                     rsv 以及基于置信度的扩大系数         β v  值, 其中  NaN  表示
                 该方法在对应扰动率下没有生成对抗文本. 从表               5  中能够得到与表    1  和表  2  类似的结论.
                    由于表   2  得到的面向新闻分类任务的基于攻击成功率计算出的                 β u  (即表  2  中的  β) 大于表  5  中的  β v , 因此最终
                 的   β 由后者决定. 将  β 代入公式  (13) 中, 即可得到如表    6  所示的基于成功率的鲁棒性分数          rsu, 进而计算出最终的
                 联合鲁棒性分数      rs.
                    表  7  展示了各对抗文本生成方法攻击面向情感倾向分类任务的中文                    BERT  模型时, 生成的高置信度对抗文本
                 占比、对应的基于置信度的鲁棒性分数              rsv 以及基于置信度的扩大系数         β v  值. 将表  4  和表  7  结合可以看出, 面向
                 情感倾向分类任务时,       β u  与  β v  均为  1, 因此这时  β 的最终取值也为  1. 表  4  中展示的鲁棒性得分即为中文    BERT  基
                                                       rsv 联合计算, 即可计算出如表       8  所示的中文   BERT  面向情感倾
                 于攻击成功率计算出的鲁棒性得分            rsu. 将  rsu 和
                 向分类任务的最终鲁棒性分数          rs.
   323   324   325   326   327   328   329   330   331   332   333