Page 206 - 《软件学报》2025年第4期
P. 206

1612                                                       软件学报  2025  年第  36  卷第  4  期


                 的性能差异. 因此, 我们使用分布外平均准确率              Avg. (average accuracy in OOD) 表示模型在各个分布外测试场景
                 中的平均表现, 以此反映模型的鲁棒性. 同时我们使用性能的下降                    Dec. (decline) 表示模型在分布内测试场景的准
                 确率与分布外平均准确率         Avg.的差值, 这有助于直观地说明模型捷径学习的程度. 具体来说, Avg.值越高, 表明模
                 型在分布外测试场景中的鲁棒性越强; Dec.值越低, 则表明模型的捷径学习问题程度越低. 注意, 由于                           Dec.值同时
                 与模型在分布内外测试场景中的准确率均有关, 如果模型在分布内外数据中的准确率均较低, 那么即使                                 Dec.值较
                 小, 我们也不认为模型的捷径学习问题得到缓解. 因此, 研究模型的捷径学习问题需要根据                            Avg.值和  Dec.值共同
                 评估. 我们的目标是在不牺牲模型分布内准确率的前提下, 提升模型在分布外测试场景中的准确率                               (Avg.值), 进而
                 缩小  Dec.值.
                    为了全面地评估生成式模型的捷径学习程度, 我们选取了两种最广泛使用的判别式基准模型与                                3  种最近具有
                                                                                        [2]
                                                                  [1]
                 代表性的生成式基准模型作为对比, 分别是              BERT-base (110M) 、RoBERTa-base (125M) 、LLaMA (7B) [12]  、
                 LLaMA 2 (7B) [13] 以及  FLAN-T5-xl (3B) 模型  [14] . 同时, 为了验证我们的方法对于缓解生成式预训练模型的捷径学
                 习问题的有效性, 我们分别使用         LLaMA  系列模型与   FLAN-T5-xl 模型作为主干进行实验. 关于模型的简要介绍如下.
                    ● BERT-base (110M) 模型是一个典型的双向编码模型. 其在预训练过程中, 使用了掩码语言模型和下一句预
                                    代替全参数微调来减小硬件需求.
                 测任务分别捕捉词语和句子级别的表示, 拥有强大的语言表征能力和特征提取能力.
                    ● RoBERTa-base (125M) 模型基于  BERT  模型进一步改进, 拥有更多的模型参数与预训练数据, 同时在预训
                 练过程中删除了下一句预测任务. 这些改进增强了其泛化能力, 使之在众多下游任务中达到更好的性能.
                    ● LLaMA (7B) 模型作为近期开源的具有代表性的生成式大语言模型之一, 该模型在众多基准测试中表现出
                 色. 该模型网络基于      Transformer 架构进一步优化, 使用预归一化       (pre-normalization)、SwiGLU  激活函数和  RoPE
                 旋转嵌入等先进的预训练策略, 最终表现出了更强大的鲁棒性与泛化能力. LLaMA 2 (7B) 是                       LLaMA  系列中的一
                 个升级版本, 采用了更先进的训练技术和数据处理方法, 在处理复杂语言任务时展现出了更高的效率和更准确的
                 输出.
                    ● FLAN-T5-xl (3B) 模型是基于  T5  预训练模型进行多任务指令微调得来的模型. 该模型使用少量的指令数据
                 使其具备完成多种任务的能力, 并且能够充分发挥在其预训练阶段学到的知识. 该模型通过模仿多种任务格式的
                 示例, 增强了其在特定任务上的表现, 如文本摘要、问答和翻译等.

                 3.3   实验方法
                    对于判别式预训练模型         BERT  与  RoBERTa 的微调实验, 设置如下: 我们使用         AdamW  优化器, 并将学习率
                 (learning rate) 设置为  1E–5, 最大训练轮次  (epoch) 设置为  10, 并根据验证集的表现挑选最终模型用于推理. 我们将
                 所有实验在不同的种子        (seed) 上面运行  5  次, 最终报告  5  次实验的平均结果.
                    生成式模型     LLaMA  的微调实验使用      Fairseq library [49] , 以设置并调节参数. 对于训练过程的超参数, 我们采
                 用  Adam  优化器, β  设置为  (0.9, 0.98), 权重衰减设置为  0.01. 我们将学习率设置为    2E–4, 模型将在  200  次更新的预
                 热  (warm up) 后进行多轮微调. 我们微调     3  个轮次并根据验证集的表现挑选最终模型用于推理. 在推理阶段, 我们
                 将生成温度    (generation temperature) 设置为  0.2. 所有训练与推理实验均使用   2  张  NVIDIA 3090  显卡进行. 我们使
                 用高效微调方案      LoRA [50]
                    对于模型    FLAN-T5  的实验, 我们使用    Huggingface 库进行. 具体来说, 我们使用     AdamW  优化器并设置学习率
                 为  5E–5. 我们同样微调   3  个轮次并根据验证集的表现挑选最终模型用于推理. 所有训练和推理的实验均使用                          4  张
                 NVIDIA 3090  显卡进行.
                    对于各个任务, 我们均从提示资源库            (PromptSource package) [40] 中选择特定任务的  3  个提示模板, 进行特定任
                 务的微调实验, 最终报告模型在         3  个不同提示下的平均性能.

                 3.4   实验结果与分析
                    为了探究生成式预训练大模型的捷径学习问题, 并证明本文所提出的缓解框架的有效性, 我们重点研究了以
                 下两个问题.
   201   202   203   204   205   206   207   208   209   210   211