Page 331 - 《软件学报》2025年第10期
P. 331

4728                                                      软件学报  2025  年第  36  卷第  10  期


                 的流畅性分数均保持在中等水平, 且这些方法的攻击成功率也远高于字符级的方法. 因此这些方法是                                 ChatGPT、
                 中文  BERT  等目标模型在设计防御方法时需要重点考虑的攻击方法.


                       表 10 面向情感分类时各方法生成的无法被              ChatGPT  分类的对抗文本占比及对应的流畅性分数

                                             不同扰动比例    α 下无法被ChatGPT分类的对抗文本占比 (%)
                       方法                                                                            fs
                                   0.01   0.03   0.05    0.10   0.15    0.20   0.25   0.30    0.40
                       C_T         1.39   1.04   1.39    1.62   1.73    2.89   2.31   2.42    2.31  9.43
                       G_R         3.35   3.46   3.58    5.20   7.39    9.01   10.62  11.89  13.39  7.74
                       A_SC        8.20   7.04   9.24   14.43   19.28  25.75   29.10  32.45  34.99  3.98
                       A_G         8.20   8.43   9.12   15.24   24.60  32.56   40.88  51.27  64.09  1.52
                       A_Sh        3.70   4.16   3.93    6.24   7.51    9.58   9.93   12.47  14.78  7.59
                       A_P         3.35   4.73   4.04    4.73   5.89    5.66   6.47   6.81    6.81  8.38
                       A_Sy        3.23   2.66   3.93    5.20   9.01   12.01   14.78  18.59  23.33  6.91
                        TF         8.43   8.55   10.05  11.66   15.70  17.21   19.05  24.13  29.91  5.18
                       CBT        10.39   11.66  13.05  17.32   20.09  23.90   26.21  27.83  31.64  3.93
                  平均流畅性分数     fs                                   6.07
                     扩大系数   β                                       3

                  4.2.2.2    文本相似性评估结果
                    为了进一步验证所提的          OFS  方法的有效性, 本文使用了       4  种文本相似度计算方法对原文本与对抗文本之
                 间的相似度进行全面评估. 虽然文本相似性与流畅性是两个截然不同的概念, 但文本相似性在一定程度上能
                 够反映出对抗文本的流畅性. 若原文本与对抗文本之间的相似度很低, 则说明对抗文本在原文本的基础上进
                 行了较大的扰动, 这些改动有较大的概率影响其原始语义以及词法和语法的正确性, 从而对其流畅性有较大
                 的影响. 因此, 本文通过评估原文本与对抗文本之间的相似性, 来对各方法生成的对抗文本的流畅性进行进一
                 步验证.
                    本文使用第     4.1.4  节中介绍的余弦相似度、词移距离、编辑距离以及杰卡德系数这                     4  种文本相似度计算方
                 法, 分别在新闻分类和情感倾向分类数据集上计算针对中文                    BERT  模型生成的对抗文本与原始文本的相似度, 实
                 验结果如图    4  和图  5  所示. 其中横坐标轴表示扰动比例, 纵坐标轴表示对应方法的文本相似度. 图例中虚线表示字
                 符级对抗文本生成方法, 实线则表示词语级对抗文本生成方法.


                       1.00                                        1.0
                                                                         C_T
                                                                         G_R
                                                                         A_SC
                       0.95                                        0.8   A_G
                                                                         A_Sh
                                                                         A_P
                                                                         A_Sy
                      平均余弦相似度  0.90  C_T                          平均词移距离  0.6  CBT
                                                                         TF
                       0.85
                                                                   0.4
                              G_R
                              A_SC
                              A_G
                              A_Sh
                       0.80   A_P                                  0.2
                              A_Sy
                              TF
                              CBT
                       0.75                                         0
                           0 0.05  0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50  0 0.05  0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50
                                       扰动比例                                       扰动比例
                                     (a) 余弦相似度                                   (b) 词移距离
                                            图 4 新闻分类数据集上的文本相似度评估
   326   327   328   329   330   331   332   333   334   335   336