Page 203 - 《软件学报》2025年第4期

P. 203

孙泽辰等: 基于可控性解释的混合数据增强框架 1609

∑
L ft = logP(Y t |S ⊕Y <t ;θ),
Y t ∈Y
其中, Y t 为目标标签序列 Y 中的每一个词符, ⊕ 为拼接操作, 其他符号的含义与上述一致. 注意, 在微调过程中, 尽
管提示语句序列和目标标签序列需要拼接起来一起输入模型, 模型仅学习预测目标标签序列中的词符, 这是因为
在推理预测阶段, 提示语句序列是给定的, 模型仅需要预测目标标签部分.
在具体的测试过程中, 我们首先利用相应的提示模板将原始样本整体作为输入, 然后要求模型在句子最后生
成对应的标签. 鉴于提示模板可能对模型的预测性能产生一定影响 [41] , 我们在所有实验中均报告了使用 3 种不同
提示模板的平均结果作为最终实验结果. 更多细节将在第 3 节呈现.

2.2 方法对比与分析

2.2.1 解释数据生成方案对比
以往相关工作获得的解释数据主要来源于人工标注与情景学习方法 (in-context learning, ICL) [43] . 人工标注方
法对于人力资源要求较大, 且众包标注的过程可能为数据集引入偏差 [11] . Ludan 等人 [42] 在少样本 (few-shot) 环境
下使用情境学习方法通过模型获得解释数据, 但这同样需要部分人工标注的解释数据样本作为示例. 与这些方法
方法可能会使解释数据更侧重于逐步解释, 即生成的是详尽的推理路径. 而通过我们设计的可控性提示诱导模型,
相比, 使用生成式模型根据提示模板自动生成解释数据可以极大地节省人力资源.
受到思维链 (chain-of-thought, COT) [34] 方法的启发, 该方法通过在模型完成任务的提示模板的末尾加入<Let’s
think step by step>, 引导模型进行逐步思考并最终输出答案和推理过程, 我们可以获取模型的思考过程作为对应的
解释数据. 然而, 使用 COT 方法生成的解释性数据可能会存在误导性, 因为原始 COT 方法没有正确答案的引导,
可能会产生错误的答案及其对应的解释. 与之对比, 如图 4(a) 和 (b) 所示, 可控性提示方法借助正确答案的引导,
可确保解释数据的准确性.

‘ ’ ‘ ’ ’

“ ” “ ”
‘ ’ “ ”
“ ”
“ ” “ ”

“ ”
(a) 可控性提示方法 (本文) (b) 思维链 (COT )方法 (c) 可控思维链 (COT) 方法
图 4 不同方法生成解释数据示例对比

值得一提的是, 如图 4(c) 所示, 我们也可以将可控性提示与 COT 方法相结合, 即使用带有真实标签引导的
COT 方法生成解释数据. 具体操作为在提示模板的末尾加入<The answer is “[label]”. Let’s think step by step.>的提
示. 案例分析显示, 这种组合方法同样可以保证解释数据的准确性, 但与单独的可控性提示方法相比, 结合 COT 的

能够保证模型在已知正确答案的前提下生成可靠且可控的解释, 并且解释的内容更为简洁明了. 在第 3.5 节的实
验分析中, 我们将对比这 3 种不同方法所得到的解释数据构造的混合数据集对缓解模型捷径学习的效果.

2.2.2 模型微调与预测方法对比
在传统 BERT 类判别式预训练模型的标准微调与预测过程中 [1] , 给定特定句子对<s1, s2>, 研究者首先使用特
殊词符 [CLS] 与 [SEP] 将句子对拼接为“[CLS] s1 [SEP] s2”的形式, 之后输入模型. 经过多个模型层之后, 该方法
将模型最后一层输出中对于 [CLS] 词符的嵌入 (embedding) 通过特定分类器头 (specific classifier head) 进行标签

198 199 200 201 202 203 204 205 206 207 208