Page 313 - 《软件学报》2025年第10期
P. 313

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(10):4710−4734 [doi: 10.13328/j.cnki.jos.007299] [CSTR: 32375.14.jos.007299]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                   *
                 中文对抗攻击下的               ChatGPT      鲁棒性评估

                 张云婷  1 ,    叶    麟  1 ,    李柏松  2 ,    张宏莉  1


                 1
                  (哈尔滨工业大学 网络空间安全学院, 黑龙江 哈尔滨 150001)
                 2
                  (安天实验室, 黑龙江 哈尔滨 150023)
                 通信作者: 叶麟, E-mail: hityelin@hit.edu.cn

                 摘 要: 以  ChatGPT  为代表的大语言模型       (large language model, LLM) 因其强大的自然语言理解和生成能力在各
                 领域中得到广泛应用. 然而, 深度学习模型在受到对抗样本攻击时往往展现出脆弱性. 在自然语言处理领域中, 当
                 前对抗样本生成方法的研究通常使用             CNN  类模型、RNN    类模型和基于     Transformer 结构的预训练模型作为目标
                 模型, 而很少有工作探究        LLM  受到对抗攻击时的鲁棒性并量化            LLM  鲁棒性的评估标准. 以中文对抗攻击下的
                 ChatGPT  为例, 引入了偏移平均差      (offset average difference, OAD) 这一新概念, 提出了一种基于  OAD  的可量化的
                 LLM  鲁棒性评价指标     OAD-based robustness score (ORS). 在黑盒攻击场景下, 选取  9  种基于词语重要性的主流中
                 文对抗攻击方法来生成对抗文本, 利用这些对抗文本攻击                    ChatGPT  后可以得到每种方法的攻击成功率. 所提的
                 ORS  基于攻击成功率为      LLM  面向每种攻击方法的鲁棒性打分. 除了输出为硬标签的                 ChatGPT, 还基于攻击成功率
                 和以高置信度误分类对抗文本占比, 设计了适用于输出为软标签的目标模型的                          ORS. 与此同时, 将这种打分公式推
                 广到对抗文本的流畅性评估中, 提出了一种基于               OAD  的对抗文本流畅性打分方法          OAD-based fluency score (OFS).
                 相比于需要人类参与的传统方法, 所提的             OFS  大大降低了评估成本. 分别在真实世界中的中文新闻分类和情感倾
                 向分类数据集上开展实验. 实验结果在一定程度上初步表明, 面向文本分类任务, 对抗攻击下的                            ChatGPT  鲁棒性分
                 数比中文   BERT  高近  20%. 然而, ChatGPT  在受到对抗攻击时仍会产生错误预测, 攻击成功率最高可超过                  40%.
                 关键词: 深度神经网络; 对抗样本; 大语言模型; ChatGPT; 鲁棒性
                 中图法分类号: TP18

                 中文引用格式: 张云婷, 叶麟, 李柏松, 张宏莉. 中文对抗攻击下的ChatGPT鲁棒性评估. 软件学报, 2025, 36(10): 4710–4734. http://
                 www.jos.org.cn/1000-9825/7299.htm
                 英文引用格式: Zhang YT, Ye L, Li BS, Zhang HL. Robustness Evaluation of ChatGPT Against Chinese Adversarial Attacks. Ruan
                 Jian Xue Bao/Journal of Software, 2025, 36(10): 4710–4734 (in Chinese). http://www.jos.org.cn/1000-9825/7299.htm

                 Robustness Evaluation of ChatGPT Against Chinese Adversarial Attacks
                               1     1          2             1
                 ZHANG Yun-Ting , YE Lin , LI Bai-Song , ZHANG Hong-Li
                 1
                 (School of Cyberspace Science, Harbin Institute of Technology, Harbin 150001, China)
                 2
                 (Antiy Labs, Harbin 150023, China)
                 Abstract:  Large  language  model  (LLM)  like  ChatGPT  has  found  widespread  applications  across  various  fields  due  to  their  strong  natural
                 language  understanding  and  generation  capabilities.  However,  deep  learning  models  exhibit  vulnerability  when  subjected  to  adversarial
                 example  attacks.  In  natural  language  processing,  current  research  on  adversarial  example  generation  methods  typically  employs  CNN-based
                 models,  RNN-based  models,  and  Transformer-based  pre-trained  models  as  target  models,  with  few  studies  exploring  the  robustness  of
                 LLMs  under  adversarial  attacks  and  quantifying  the  evaluation  criteria  of  LLM  robustness.  Taking  ChatGPT  against  Chinese  adversarial


                 *    基金项目: 黑龙江省重点研发计划  (2023ZX01A19)
                  收稿时间: 2024-03-29; 修改时间: 2024-06-18, 2024-08-26; 采用时间: 2024-10-02; jos 在线出版时间: 2025-02-26
                  CNKI 网络首发时间: 2025-02-26
   308   309   310   311   312   313   314   315   316   317   318