Page 335 - 《软件学报》2025年第10期

P. 335

4732 软件学报 2025 年第 36 卷第 10 期

表 14 改变提示语的情况下面向情感分类时各方法生成的无法被 ChatGPT 分类的对抗文本占比
及对应的流畅性分数

不同扰动比例 α 下无法被ChatGPT分类的对抗文本占比 (%)
方法 fs
0.01 0.03 0.05 0.10 0.15 0.20 0.25 0.30 0.40
C_T 0.11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.00
G_R 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.00
A_SC 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.00
A_G 0.11 0.00 0.11 0.11 0.22 0.00 0.11 0.11 0.55 9.96
A_Sh 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.00
A_P 0.11 0.11 0.00 0.11 0.11 0.00 0.00 0.00 0.11 9.98
A_Sy 0.11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.00
TF 0.11 0.11 0.11 0.00 0.00 0.00 0.00 0.00 0.11 9.99
CBT 0.11 0.22 0.22 0.11 0.11 0.22 0.22 0.44 0.22 9.94
9.99
平均流畅性分数 fs
β 3
扩大系数

上述实验结果同样证明了提示词对所提的 OFS 的评估效果有显著影响. 当提示词不完善时, 虽然 ChatGPT 仍
然保留一定的纠错能力, 但其对于对抗文本流畅性会出现较为严重的错误认知, 导致其评估水平大幅下降.
5 总结

在中文对抗攻击下, 本工作对 ChatGPT 的鲁棒性进行了可量化评估. 本文引入了一个新的概念 OAD, 基于 OAD
设计了一种目标模型鲁棒性的量化评估方法 ORS. 本文分别面向输出为硬标签和输出为软标签的目标模型提出
了不同的评价指标. 其中前者利用了不同中文对抗文本生成方法在各种扰动比例下的攻击成功率, 而后者则在前
者的基础上引入置信度信息. 与此同时, 本工作将 OAD 的应用扩展到对抗文本流畅性的评估中. 相比于以往需要
人类参与的方法, 所提的基于 OAD 的流畅性评估方法 OFS 利用 ChatGPT 强大的自然语言理解能力, 能够实现自
动化评估, 大幅降低了评估成本. 实验结果表明, 相比于字符级方法, 词语级对抗文本生成方法能够以较强的攻击
成功率, 在一定程度上破坏 ChatGPT 的鲁棒性. 与此同时, 词语级方法生成的对抗文本拥有较好的流畅性, 且与原
始文本保持较高的相似度. 然而, ChatGPT 的鲁棒性以及对对抗文本流畅性的评估能力在很大程度上与提示语相
关. 当提示语信息较少时, ChatGPT 对自然语言的理解能力及纠错能力会大幅下降, 导致其更容易受到对抗攻击,
且难以正确评估对抗文本的流畅性. 在未来的工作中, 将进一步研究 ChatGPT 及其他 LLM 在英文对抗攻击下的
鲁棒性, 继而尝试使用可解释的对抗攻击手段绕过 LLM 自身的安全机制, 并提供相应的防御方法.

References:
[1] Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I, Fergus R. Intriguing properties of neural networks. In: Proc. of the
2014 Int’l Conf. on Learning Representations. OpenReview.net. 2014.
[2] Goodfellow IJ, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. arXiv:1412.6572, 2015.
[3] Gao J, Lanchantin J, Soffa ML, Qi YJ. Black-box generation of adversarial text sequences to evade deep learning classifiers. In: Proc. of
the 2018 IEEE Security and Privacy Workshops. San Francisco: IEEE, 2018. 50–56. [doi: 10.1109/SPW.2018.00016]
[4] Wang WQ, Wang R, Wang LN, Tang BX. Adversarial examples generation approach for tendency classification on Chinese texts. Ruan
Jian Xue Bao/Journal of Software, 2019, 30(8): 2415–2427 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5765.
htm [doi: 10.13328/j.cnki.jos.005765]
[5] Zhu KJ, Wang JD, Zhou JH, Wang ZC, Chen H, Wang YD, Yang LY, Ye W, Zhang Y, Gong N, Xie X. PromptRobust: Towards
evaluating the robustness of large language models on adversarial prompts. arXiv:2306.04528, 2024.
[6] Liang B, Li HC, Su MQ, Bian P, Li XR, Shi WC. Deep text classification can be fooled. In: Proc. of the 27th Int’l Joint Conf. on
Artificial Intelligence. Stockholm: AAAI Press, 2018. 4208–4215.
[7] Wang WQ, Wang R, Wang LN, Wang ZB, Ye AS. Towards a robust deep neural network in texts: A survey. arXiv:1902.07285, 2021.

330 331 332 333 334 335 336 337 338 339 340