Page 206 - 《软件学报》2025年第4期
P. 206
1612 软件学报 2025 年第 36 卷第 4 期
的性能差异. 因此, 我们使用分布外平均准确率 Avg. (average accuracy in OOD) 表示模型在各个分布外测试场景
中的平均表现, 以此反映模型的鲁棒性. 同时我们使用性能的下降 Dec. (decline) 表示模型在分布内测试场景的准
确率与分布外平均准确率 Avg.的差值, 这有助于直观地说明模型捷径学习的程度. 具体来说, Avg.值越高, 表明模
型在分布外测试场景中的鲁棒性越强; Dec.值越低, 则表明模型的捷径学习问题程度越低. 注意, 由于 Dec.值同时
与模型在分布内外测试场景中的准确率均有关, 如果模型在分布内外数据中的准确率均较低, 那么即使 Dec.值较
小, 我们也不认为模型的捷径学习问题得到缓解. 因此, 研究模型的捷径学习问题需要根据 Avg.值和 Dec.值共同
评估. 我们的目标是在不牺牲模型分布内准确率的前提下, 提升模型在分布外测试场景中的准确率 (Avg.值), 进而
缩小 Dec.值.
为了全面地评估生成式模型的捷径学习程度, 我们选取了两种最广泛使用的判别式基准模型与 3 种最近具有
[2]
[1]
代表性的生成式基准模型作为对比, 分别是 BERT-base (110M) 、RoBERTa-base (125M) 、LLaMA (7B) [12] 、
LLaMA 2 (7B) [13] 以及 FLAN-T5-xl (3B) 模型 [14] . 同时, 为了验证我们的方法对于缓解生成式预训练模型的捷径学
习问题的有效性, 我们分别使用 LLaMA 系列模型与 FLAN-T5-xl 模型作为主干进行实验. 关于模型的简要介绍如下.
● BERT-base (110M) 模型是一个典型的双向编码模型. 其在预训练过程中, 使用了掩码语言模型和下一句预
代替全参数微调来减小硬件需求.
测任务分别捕捉词语和句子级别的表示, 拥有强大的语言表征能力和特征提取能力.
● RoBERTa-base (125M) 模型基于 BERT 模型进一步改进, 拥有更多的模型参数与预训练数据, 同时在预训
练过程中删除了下一句预测任务. 这些改进增强了其泛化能力, 使之在众多下游任务中达到更好的性能.
● LLaMA (7B) 模型作为近期开源的具有代表性的生成式大语言模型之一, 该模型在众多基准测试中表现出
色. 该模型网络基于 Transformer 架构进一步优化, 使用预归一化 (pre-normalization)、SwiGLU 激活函数和 RoPE
旋转嵌入等先进的预训练策略, 最终表现出了更强大的鲁棒性与泛化能力. LLaMA 2 (7B) 是 LLaMA 系列中的一
个升级版本, 采用了更先进的训练技术和数据处理方法, 在处理复杂语言任务时展现出了更高的效率和更准确的
输出.
● FLAN-T5-xl (3B) 模型是基于 T5 预训练模型进行多任务指令微调得来的模型. 该模型使用少量的指令数据
使其具备完成多种任务的能力, 并且能够充分发挥在其预训练阶段学到的知识. 该模型通过模仿多种任务格式的
示例, 增强了其在特定任务上的表现, 如文本摘要、问答和翻译等.
3.3 实验方法
对于判别式预训练模型 BERT 与 RoBERTa 的微调实验, 设置如下: 我们使用 AdamW 优化器, 并将学习率
(learning rate) 设置为 1E–5, 最大训练轮次 (epoch) 设置为 10, 并根据验证集的表现挑选最终模型用于推理. 我们将
所有实验在不同的种子 (seed) 上面运行 5 次, 最终报告 5 次实验的平均结果.
生成式模型 LLaMA 的微调实验使用 Fairseq library [49] , 以设置并调节参数. 对于训练过程的超参数, 我们采
用 Adam 优化器, β 设置为 (0.9, 0.98), 权重衰减设置为 0.01. 我们将学习率设置为 2E–4, 模型将在 200 次更新的预
热 (warm up) 后进行多轮微调. 我们微调 3 个轮次并根据验证集的表现挑选最终模型用于推理. 在推理阶段, 我们
将生成温度 (generation temperature) 设置为 0.2. 所有训练与推理实验均使用 2 张 NVIDIA 3090 显卡进行. 我们使
用高效微调方案 LoRA [50]
对于模型 FLAN-T5 的实验, 我们使用 Huggingface 库进行. 具体来说, 我们使用 AdamW 优化器并设置学习率
为 5E–5. 我们同样微调 3 个轮次并根据验证集的表现挑选最终模型用于推理. 所有训练和推理的实验均使用 4 张
NVIDIA 3090 显卡进行.
对于各个任务, 我们均从提示资源库 (PromptSource package) [40] 中选择特定任务的 3 个提示模板, 进行特定任
务的微调实验, 最终报告模型在 3 个不同提示下的平均性能.
3.4 实验结果与分析
为了探究生成式预训练大模型的捷径学习问题, 并证明本文所提出的缓解框架的有效性, 我们重点研究了以
下两个问题.