Page 335 - 《软件学报》2025年第10期
P. 335

4732                                                      软件学报  2025  年第  36  卷第  10  期



                       表 14 改变提示语的情况下面向情感分类时各方法生成的无法被                     ChatGPT  分类的对抗文本占比
                                                    及对应的流畅性分数

                                             不同扰动比例    α 下无法被ChatGPT分类的对抗文本占比 (%)
                       方法                                                                            fs
                                   0.01   0.03   0.05    0.10   0.15   0.20   0.25    0.30   0.40
                       C_T         0.11   0.00   0.00    0.00   0.00   0.00   0.00    0.00   0.00  10.00
                       G_R         0.00   0.00   0.00    0.00   0.00   0.00   0.00    0.00   0.00  10.00
                       A_SC        0.00   0.00   0.00    0.00   0.00   0.00   0.00    0.00   0.00  10.00
                       A_G         0.11   0.00   0.11    0.11   0.22   0.00   0.11    0.11   0.55   9.96
                       A_Sh        0.00   0.00   0.00    0.00   0.00   0.00   0.00    0.00   0.00  10.00
                       A_P         0.11   0.11   0.00    0.11   0.11   0.00   0.00    0.00   0.11   9.98
                       A_Sy        0.11   0.00   0.00    0.00   0.00   0.00   0.00    0.00   0.00  10.00
                        TF         0.11   0.11   0.11    0.00   0.00   0.00   0.00    0.00   0.11   9.99
                       CBT         0.11   0.22   0.22    0.11   0.11   0.22   0.22    0.44   0.22   9.94
                                                                   9.99
                  平均流畅性分数     fs
                            β                                       3
                     扩大系数

                    上述实验结果同样证明了提示词对所提的               OFS  的评估效果有显著影响. 当提示词不完善时, 虽然             ChatGPT  仍
                 然保留一定的纠错能力, 但其对于对抗文本流畅性会出现较为严重的错误认知, 导致其评估水平大幅下降.
                  5   总 结

                    在中文对抗攻击下, 本工作对         ChatGPT  的鲁棒性进行了可量化评估. 本文引入了一个新的概念               OAD, 基于  OAD
                 设计了一种目标模型鲁棒性的量化评估方法                ORS. 本文分别面向输出为硬标签和输出为软标签的目标模型提出
                 了不同的评价指标. 其中前者利用了不同中文对抗文本生成方法在各种扰动比例下的攻击成功率, 而后者则在前
                 者的基础上引入置信度信息. 与此同时, 本工作将              OAD  的应用扩展到对抗文本流畅性的评估中. 相比于以往需要
                 人类参与的方法, 所提的基于         OAD  的流畅性评估方法      OFS  利用  ChatGPT  强大的自然语言理解能力, 能够实现自
                 动化评估, 大幅降低了评估成本. 实验结果表明, 相比于字符级方法, 词语级对抗文本生成方法能够以较强的攻击
                 成功率, 在一定程度上破坏        ChatGPT  的鲁棒性. 与此同时, 词语级方法生成的对抗文本拥有较好的流畅性, 且与原
                 始文本保持较高的相似度. 然而, ChatGPT         的鲁棒性以及对对抗文本流畅性的评估能力在很大程度上与提示语相
                 关. 当提示语信息较少时, ChatGPT      对自然语言的理解能力及纠错能力会大幅下降, 导致其更容易受到对抗攻击,
                 且难以正确评估对抗文本的流畅性. 在未来的工作中, 将进一步研究                     ChatGPT  及其他  LLM  在英文对抗攻击下的
                 鲁棒性, 继而尝试使用可解释的对抗攻击手段绕过                LLM  自身的安全机制, 并提供相应的防御方法.

                 References:
                  [1]   Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I, Fergus R. Intriguing properties of neural networks. In: Proc. of the
                     2014 Int’l Conf. on Learning Representations. OpenReview.net. 2014.
                  [2]   Goodfellow IJ, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. arXiv:1412.6572, 2015.
                  [3]   Gao J, Lanchantin J, Soffa ML, Qi YJ. Black-box generation of adversarial text sequences to evade deep learning classifiers. In: Proc. of
                     the 2018 IEEE Security and Privacy Workshops. San Francisco: IEEE, 2018. 50–56. [doi: 10.1109/SPW.2018.00016]
                  [4]   Wang WQ, Wang R, Wang LN, Tang BX. Adversarial examples generation approach for tendency classification on Chinese texts. Ruan
                     Jian Xue Bao/Journal of Software, 2019, 30(8): 2415–2427 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5765.
                     htm [doi: 10.13328/j.cnki.jos.005765]
                  [5]   Zhu  KJ,  Wang  JD,  Zhou  JH,  Wang  ZC,  Chen  H,  Wang  YD,  Yang  LY,  Ye  W,  Zhang  Y,  Gong  N,  Xie  X.  PromptRobust:  Towards
                     evaluating the robustness of large language models on adversarial prompts. arXiv:2306.04528, 2024.
                  [6]   Liang B, Li HC, Su MQ, Bian P, Li XR, Shi WC. Deep text classification can be fooled. In: Proc. of the 27th Int’l Joint Conf. on
                     Artificial Intelligence. Stockholm: AAAI Press, 2018. 4208–4215.
                  [7]   Wang WQ, Wang R, Wang LN, Wang ZB, Ye AS. Towards a robust deep neural network in texts: A survey. arXiv:1902.07285, 2021.
   330   331   332   333   334   335   336   337   338   339   340