Page 207 - 《软件学报》2025年第4期
P. 207

孙泽辰 等: 基于可控性解释的混合数据增强框架                                                         1613


                    ● RQ1: 生成式预训练大模型是否仍然存在捷径学习问题, 其程度如何?
                    ● RQ2: 基于可控性解释的混合数据增强框架能否有效缓解生成式模型的捷径学习问题?
                    RQ1: 生成式预训练大模型是否仍然存在捷径学习问题, 其程度如何?
                    为了研究生成式大模型在自然语言理解任务中的捷径学习问题, 我们将                         LLaMA  系列模型与    FLAN-T5  模型
                 与两个被广泛使用的        BERT  类判别式模型进行对比, 并在        3  个常见的自然语言理解任务中进行了实验. 实验结果
                 如表  2  所示, 表中以粗体显示最佳性能.

                                               表 2 捷径学习问题的研究结果          (%)

                                      自然语言推理任务                         事实验证任务                释义识别任务
                              ID            OOD                ID          OOD              ID  OOD
                    Method
                                         MNLI-  MNLI-    Dec.                          Dec.          Dec.
                            MNLI-m HANS              Avg.     FEVER Symm. v1 Symm. v2 Avg.  QQP PAWS
                                        Hard-m Hard-mm
                  BERT-base   84.3  61.1  75.9  76.8  71.3 13.0  85.8  57.9  64.4  61.2 24.7 90.7  49.5  41.2
                 RoBERTa-base  87.3  71.2  80.6  81.4  77.7 9.6  86.4  68.0  68.2  68.1 18.3 91.1  51.0  40.1
                  LLaMA (7B)  89.9  72.3  85.8  86.0  81.4 8.5  88.8  71.5   72.8  72.2 16.6 92.8  53.8  39.0
                             中证明了我们所提缓解框架的有效性.
                 LLaMA 2 (7B)  90.6  69.8  86.2  86.4  80.8 9.8  90.2  72.6  73.0  72.8 17.4 89.4  57.0  32.4
                  FLAN-T5-xl  87.7  66.9  83.8  84.8  78.5 9.2  94.0  79.4   80.8  80.1 13.9 90.2  50.3  39.9

                    实验结果表明: (1) 生成式大模型        LLaMA  系列模型与    FLAN-T5  模型在分布内和分布外测试场景中的性能仍
                 然表现出显著的差距        (其中, LLaMA  模型在  3  个任务中的   Dec.值分别为   8.5%、16.6%、39.0%; LLaMA 2  模型的
                 Dec.值分别为   9.8%、17.4%、32.4%; FLAN-T5  模型的  Dec.值分别为  9.2%、13.9%、39.9%), 表明该类模型仍然存
                 在严重的捷径学习问题. (2) 与       BERT  类模型相比, 当前的生成式大模型受到捷径学习的影响程度略低, 并且表现
                 出了更强的理解能力与泛化能力, 尤其是在分布外数据场景中                    (其中, 与  RoBERTa 相比, LLaMA  模型在   3  个任务
                 中的  Avg.值分别提升了     3.7%、4.1%、2.8%, Dec.值分别降低了    1.4%、1.7%、1.1%). 这可能得益于近期的生成式
                 大模型具有更大的参数规模与更先进的预训练策略. (3) 不同的生成式大模型之间的表现也略有差异, LLaMA                               系
                 列模型在    NLI 任务与释义识别任务中的表现相对较好, 而              FLAN-T5  模型在事实验证任务中表现较好. 这可能
                 LLaMA  系列模型与    FLAN-T5  模型具有不同的架构、参数规模以及预训练技术有关.
                    此外, 从捷径类型的角度分析, 我们使用的分布外测试集主要关注两种类型的捷径: (1) HANS                             数据集与
                 PAWS  数据集主要关注模型对词汇重叠捷径的利用, 即模型倾向于通过句子对中的重叠单词判断二者之间的关系;
                 (2) MNLI-Hard  数据集与  Fever-Symmetric 数据集主要关注模型对于单句捷径的利用, 即模型倾向于仅通过句子对
                 中的单个句子中的一些单词进行预测. 从表中可以看出, 各模型在关于词汇重叠的测试集上                             (类型  1) 相对于单句
                 捷径  (类型  2) 的准确率明显较低      (在  LLaMA  模型中, HANS  和  MNLI-Hard-m  之间的准确率差异达到     13.5%). 同
                 时, 模型在分布内测试集与        (1) 类重叠捷径之间的性能差异也更加显著             (LLaMA  中, HANS  与  MNLI-m  之间的准
                 确率相差   17.6%). 实验结果表明, 相比于单句捷径, 词汇重叠捷径将对模型产生更大的影响, 针对词汇重叠捷径的
                 测试场景对模型更具有挑战性.
                    综上所述, 生成式预训练大模型确实表现出了具有更强的应对捷径学习问题的潜力, 同时表现出了更强的泛
                 化性与鲁棒性. 尽管如此, 模型在分布内外测试场景的显著性能差异表明了捷径学习问题依旧影响着模型的鲁棒
                 性和泛化能力. 因此, 我们的探索对未来关于捷径学习的研究工作提供了有价值的指导. 并且, 现有的缓解捷径学
                 习的工作主要集中于        BERT  类判别式预训练模型, 并没有针对生成式预训练大模型所设计的缓解方法, 这进一步
                 鼓励我们探索适用于缓解生成式大模型捷径学习问题的方案. 因此, 我们提出了基于可控性解释的混合数据增强
                 框架, 并在  RQ2
                    RQ2: 使用本文提出的基于可控性解释的混合数据增强框架, 能否有效缓解模型的捷径学习问题?
                    为了缓解生成式预训练大模型在自然语言理解任务中的捷径学习问题, 我们从数据的角度出发, 提出了基于
                 可控性解释的混合数据增强框架, 生成混合训练集                D mi 用于微调生成式模型. 在实验中, 我们比较了使用              D mi 微
                                                           x
                                                                                                     x
                 调后的模型与使用原始提示性数据            D pr 微调后的模型在各个场景中的性能, 具体实验结果见表                 3. 需要说明的是,
                                               o
   202   203   204   205   206   207   208   209   210   211   212