Page 204 - 《软件学报》2025年第4期

P. 204

1610 软件学报 2025 年第 36 卷第 4 期

预测. 该分类器头将 [CLS] 词符的嵌入经过线性分类层, 输出对于每一个特定标签的概率, 最后将概率最大的标签
类别作为推理结果.
随后, Lester 等人 [44] 提出了使用提示的方法微调 BERT 类模型的技术. 该类方法将特定句子对<s1, s2>转换为
例如“[CLS] s1 ? [MASK] s2 [SEP]”的形式输入模型. 与上述使用 [CLS] 词符的嵌入预测标签的方法不同, 该类方
法使模型直接在 [MASK] 词符对应的位置生成特定标签. 测试过程同样如此, 在模型输出 [MASK] 词符位置对应
生成概率分布之后, 将标签集合中对应生成概率最大的标签类别作为结果. 这种提示方法与 BERT 模型在预训练
[1]
阶段的掩码语言模型 (masked language model, MLM) 任务相符, 即预测被 [MASK] 标记的输入句子位置的词符,
从而在多个下游任务上取得了效果提升.
然而, 当我们使用生成式预训练大模型进行微调时, 同样需要与模型预训练阶段的学习任务相匹配. 该类模型
在预训练阶段中的任务是基于上下文预测下一个词, 同时不使用 [MASK] 标签. 所以我们需要利用特定提示模板
将句子对转换为问答的方式, 这样使得模型可以在提示输入之后生成预测的标签. 在测试过程中, 我们将通过特定
提示模板转换后的句子输入模型, 然后模型将会输出对应的回答作为类别标签.
此外, 仅解码器结构的模型和编码器-解码器结构的模型在训练和推理过程中存在细微差别. 对于仅解码器架
FEVER dev
构的模型来说, 其流程正如第 2.1.2 节中所提, 该模型将问题直接输入解码器随后逐字生成答案. 而对于编码器-解
码器结构的模型来说, 问题部分将被输入编码器, 随后解码器将逐字生成答案.

3 实验

3.1 实验数据
我们选取 3 个经过充分研究且广为采纳的自然语言理解任务展开实验, 分别是自然语言推理任务 (natural
language inference, NLI)、事实验证任务 (fact verification) 以及释义识别任务 (paraphrase identification). 参照先前
的研究思路 [6] , 我们通过比较模型在与训练数据同分布和不同分布的测试场景中的性能来探究模型的捷径学习程
度. 与训练数据同分布的测试场景通常为该数据集本身的验证集或测试集, 也被称为分布内数据集 (in-domain
data, ID), 与其具有不同分布的测试场景通常包含较多不能通过捷径做出正确预测的测试样本, 这类数据集被称为
分布外数据集 (out-of-domain data, OOD) [45] . 表 1 中同时给出了各个任务对应数据集的统计信息, 下面将对各个数
据集进行详细的介绍.

表 1 实验所用数据信息

任务名称分割数量
MNLI Train 392 702
MNLI-m dev ID Test 9 815
自然语言推理 HANS 30 000
MNLI-Hard-m OOD Test 4 573
MNLI-Hard-mm 4 530
FEVER Train 242 911
ID Test 16 664
事实验证
FEVER Symm. v1 956
OOD Test
FEVER Symm. v2 712
QQP Train 363 870
释义识别 QQP dev ID Test 40 430
PAWS_QQP OOD Test 677

(1) 自然语言推理任务
● MNLI (the multi-genre natural language inference corpus, 多类型自然语言推理数据库) 数据集是一个被广泛
[3]
使用的自然语言推理任务数据集, 包含由前提和假设组成的句子对以及二者之间的语义关系 (即标签). 具体来说,
如果假设能够从前提中引申出来, 则标签为蕴含 (entailment); 如果假设与前提无关, 则标签为中立 (neutral); 如果

199 200 201 202 203 204 205 206 207 208 209