Page 313 - 《软件学报》2025年第10期

P. 313

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(10):4710−4734 [doi: 10.13328/j.cnki.jos.007299] [CSTR: 32375.14.jos.007299] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563

*
中文对抗攻击下的 ChatGPT 鲁棒性评估

张云婷 1 , 叶麟 1 , 李柏松 2 , 张宏莉 1

1
(哈尔滨工业大学网络空间安全学院, 黑龙江哈尔滨 150001)
2
(安天实验室, 黑龙江哈尔滨 150023)
通信作者: 叶麟, E-mail: hityelin@hit.edu.cn

摘要: 以 ChatGPT 为代表的大语言模型 (large language model, LLM) 因其强大的自然语言理解和生成能力在各
领域中得到广泛应用. 然而, 深度学习模型在受到对抗样本攻击时往往展现出脆弱性. 在自然语言处理领域中, 当
前对抗样本生成方法的研究通常使用 CNN 类模型、RNN 类模型和基于 Transformer 结构的预训练模型作为目标
模型, 而很少有工作探究 LLM 受到对抗攻击时的鲁棒性并量化 LLM 鲁棒性的评估标准. 以中文对抗攻击下的
ChatGPT 为例, 引入了偏移平均差 (offset average difference, OAD) 这一新概念, 提出了一种基于 OAD 的可量化的
LLM 鲁棒性评价指标 OAD-based robustness score (ORS). 在黑盒攻击场景下, 选取 9 种基于词语重要性的主流中
文对抗攻击方法来生成对抗文本, 利用这些对抗文本攻击 ChatGPT 后可以得到每种方法的攻击成功率. 所提的
ORS 基于攻击成功率为 LLM 面向每种攻击方法的鲁棒性打分. 除了输出为硬标签的 ChatGPT, 还基于攻击成功率
和以高置信度误分类对抗文本占比, 设计了适用于输出为软标签的目标模型的 ORS. 与此同时, 将这种打分公式推
广到对抗文本的流畅性评估中, 提出了一种基于 OAD 的对抗文本流畅性打分方法 OAD-based fluency score (OFS).
相比于需要人类参与的传统方法, 所提的 OFS 大大降低了评估成本. 分别在真实世界中的中文新闻分类和情感倾
向分类数据集上开展实验. 实验结果在一定程度上初步表明, 面向文本分类任务, 对抗攻击下的 ChatGPT 鲁棒性分
数比中文 BERT 高近 20%. 然而, ChatGPT 在受到对抗攻击时仍会产生错误预测, 攻击成功率最高可超过 40%.
关键词: 深度神经网络; 对抗样本; 大语言模型; ChatGPT; 鲁棒性
中图法分类号: TP18

中文引用格式: 张云婷, 叶麟, 李柏松, 张宏莉. 中文对抗攻击下的ChatGPT鲁棒性评估. 软件学报, 2025, 36(10): 4710–4734. http://
www.jos.org.cn/1000-9825/7299.htm
英文引用格式: Zhang YT, Ye L, Li BS, Zhang HL. Robustness Evaluation of ChatGPT Against Chinese Adversarial Attacks. Ruan
Jian Xue Bao/Journal of Software, 2025, 36(10): 4710–4734 (in Chinese). http://www.jos.org.cn/1000-9825/7299.htm

Robustness Evaluation of ChatGPT Against Chinese Adversarial Attacks
1 1 2 1
ZHANG Yun-Ting , YE Lin , LI Bai-Song , ZHANG Hong-Li
1
(School of Cyberspace Science, Harbin Institute of Technology, Harbin 150001, China)
2
(Antiy Labs, Harbin 150023, China)
Abstract: Large language model (LLM) like ChatGPT has found widespread applications across various fields due to their strong natural
language understanding and generation capabilities. However, deep learning models exhibit vulnerability when subjected to adversarial
example attacks. In natural language processing, current research on adversarial example generation methods typically employs CNN-based
models, RNN-based models, and Transformer-based pre-trained models as target models, with few studies exploring the robustness of
LLMs under adversarial attacks and quantifying the evaluation criteria of LLM robustness. Taking ChatGPT against Chinese adversarial

* 基金项目: 黑龙江省重点研发计划 (2023ZX01A19)
收稿时间: 2024-03-29; 修改时间: 2024-06-18, 2024-08-26; 采用时间: 2024-10-02; jos 在线出版时间: 2025-02-26
CNKI 网络首发时间: 2025-02-26

308 309 310 311 312 313 314 315 316 317 318