Page 205 - 《软件学报》2025年第4期
P. 205
孙泽辰 等: 基于可控性解释的混合数据增强框架 1611
假设与前提相矛盾, 则标签为矛盾 (contradiction). MNLI 数据集涵盖各种领域和文本风格, 所以其测试集分为匹配
的 (matched) 和不匹配的 (mismatched) 两个版本, 下面简称 MNLI-m 与 MNLI-mm. 由于原始测试集未提供真实标
签, 我们使用该数据集的验证集作为对应的分布内测试集.
● HANS 是一个专门用于评估自然语言推理任务中模型对表层句法偏差的依赖性问题的受控数据集, 可作
[7]
为 MNLI 的分布外测试集. HANS 数据集与 MNLI 的格式类似, 同样也由假设句和前提句组成, 但是其标签仅包含
蕴含 (entailment) 与非蕴含 (non-entailment) 两个类别. 值得注意的是, 该数据集中每一个样本的前提句和假设句之
间均有大量的词汇重叠, 按照由大到小的递进关系可分为词汇重叠 (lexical-overlap)、子序列 (subsequence) 和成
分 (constituent) 这 3 种类型, 而其真实标签为蕴含和非蕴含的样本各为 15 000 条. 以往的研究表明, 模型极易倾向
于通过前提与假设之间的词汇重叠, 即捷径, 将其关系预测为蕴含. 因此, 如果模型存在捷径学习问题, 在 HANS
数据集中的具体表现为: 在真实标签为蕴含的测试样本中的预测准确率极高, 而非蕴含类别的准确率极低, 最终总
体性能不佳.
[8]
● MNLI-Hard 的构建主要用于检测自然语言推理任务中假设句偏差 (hypothesis-only bias) 导致的捷径学习
现象, 即模型可能仅依赖于假设句来进行预测, 忽略了假设和前提之间的语义关系. 该现象的主要原因通常是假设
● PAWS (paraphrase adversaries from word scrambling)
句中的一些单词与标签之间存在较强的虚假指向性, 例如否定词通常与矛盾标签强相关. 因此研究者使用仅由假
设句训练的模型来预测 MNLI 的测试样本, 并使用预测错误的样本集合构建了 MNLI-Hard 测试集. 同样, MNLI-
Hard 测试集也被分为匹配的与不匹配的两个版本, 下面简称 MNLI-Hard-m 与 MNLI-Hard-mm, 均作为 MNLI 的
分布外测试集. 实验中, 如果模型在 MNLI-Hard 中的性能与在 MNLI 的分布内测试集的性能差异越大, 则反映该
模型的捷径学习问题越严重.
(2) 事实验证任务
● FEVER (fact extraction and verification) [46] 数据集是当前在事实提取和验证任务上研究最充分、结构最正式
的数据集, 也是使用最广泛的数据集之一. 该任务旨在为在给定证据 (evidence) 的背景下评估声明 (claim) 的有效
性, 其标签包括支持 (support)、反驳 (refutes) 或者信息不足 (not enough information). 由于该数据集的测试集真实
标签未公开, 因此我们使用 FEVER 训练集微调模型, 并且使用其验证集作为分布内数据集以测试模型性能.
● Fever-Symmetric 由 Schuster 等人 [47] 提出, 目的是验证模型对仅声明偏差 (claim-only bias) 这类捷径的依赖
程度. 仅声明偏差与自然语言推理任务中的仅假设偏差类似, 来自声明中出现的某些单词和短语与某类标签之间
存在着虚假关联. 因此如果模型未能真实理解证据与声明之间的语义关系, 而是仅依赖声明中的虚假关联作为捷
径, 在分布外的测试场景中极易出现预测错误的现象. 该数据集的两个版本, 简称 Symm. v1 与 Symm. v2, 均可作
为事实验证任务的分布外测试集以测试模型对捷径的依赖程度.
(3) 释义识别任务
● QQP (Quora question pair) 数据集由社区问答网站 Quora 中的问题对的集合组成, 任务是判断一个问题对中
的两个问题是否能够相互转述. 举例来说, 在一个样本中, 如果问题 1 能够被问题 2 所转述, 则该样本的标签为重
复 (duplicate), 否则即为非重复 (not-duplicate). 我们使用 QQP 的训练集对模型进行释义识别任务的微调, 并使用
其验证集作为对应的分布内测试集.
[48] 的 QQP 子集同样由问题对的集合组成, 然而两个问
题之间的单词高度重叠, 但其语义关系大多不可相互转述, 即真实标签为非重复. 先前的实验结果指出, 使用
QQP 数据集训练的模型在该测试场景中的表现甚至不如随机结果 (random baseline), 这表明模型严重依赖于词
汇重叠捷径进行推理. 我们同样使用 PAWS 数据集作为释义识别任务的分布外测试集以测试模型是否存在捷
径学习现象.
3.2 评价指标与基准模型
在本文中, 我们采用了常用的评价指标准确率 (accuracy, %) 来评估模型性能, 准确率越高, 表明模型的性能越
好. 由于捷径学习主要影响模型在分布外测试场景中的鲁棒性, 使模型在分布内外的测试场景中表现出较为明显