Page 225 - 《软件学报》2025年第4期
P. 225
郁俊杰 等: 面向低资源关系抽取的自训练方法 1631
5 实验分析
5.1 消融实验
ST-LRE 不仅引入了复述数据帮助教师模型筛选可靠数据, 而且提出了基于低置信度数据的模糊数据学习方
法. 因此, 我们针对复述增强 (paraphrase data) 的数据预测方法以及模糊数据使用和训练中涉及的部分标注方法和
负向训练方法分别进行消融实验.
实验结果如表 5 所示. 从表 5 中可以看出: (1) 如果没有引入复述数据 (– paraphrase data), 实验结果均有 1%
以上的下降. 由此可以看出, 在低资源场景的自训练方法基础上引入复述数据是能够帮助筛选更多可靠数据的.
(2) 对于模糊数据的使用, 若不使用部分标注方法 (– partial label), 即以硬标注模式处理模糊数据但依旧使用负向
训练方法, 则性能有明显的降低. 以 Accuracy 值为例, 在 Re-TACRED 和 SemEval 上性能分别下降 8.6% 和 2.2%.
该方法的性能下降是可以预见的: 硬标注模式在很多情况下会导致正确类别出现在负标签集合中, 因此, 在负向训
练过程中有可能选择到正确类别作为负标签, 导致模型往错误方向更新. (3) 若去掉负向训练 (– negative training),
数据集中都没有发现纯噪音数据. 因此, Re-TACRED
即以部分标注模式处理模糊数据, 但采用正向训练方法, 也就是训练时标签随机选自正标签集合, 根据表中实验结
果, 这种策略导致性能急剧下降. 同样以 Accuracy 为指标, 在两个数据集上的性能下降分别达到 24.4% 和 6.9%.
其主要原因是由于正标签集合中至多有 1 个正确标签 (甚至全是错误标签), 从而正向训练时极有可能选取到错误
标签对模型进行正向更新. 因此, 性能大幅度下降也是符合直觉的. 由此可见, 针对模糊数据的使用, 本文提出的部
分标注模式和负向训练方法缺一不可, 同时也证明本文针对模糊数据的假设在实验应用中是可行的.
表 5 消融实验结果 (测试集)(%)
Re-TACRED SemEval
Method
Accuracy Macro-F1 Accuracy Macro-F1
ST-LRE 75.8 63.5 79.5 73.3
– paraphrase data −1.2 −1.0 −1.4 −1.3
– partial label −8.6 −4.1 −2.2 −1.7
– negative training −24.4 −13.7 −6.9 −6.1
5.2 自动标注数据的分布
为了分析自训练框架下自动标注数据的分布情况, 我们统计 Re-TACRED 和 SemEval 两个数据集中教师模型
预测数据的分布情况. 数据分布如图 5 所示, 其中纵坐标表示句子数目, 而横坐标表示正标签集中的数目, 即为满
足概率阈值条件 (此处概率阈值为 0.9), 以概率累加方式构成的正标签集中所包含的类别数目. 当横坐标值为 1 时
表示正标签集合中只有 1 个类别, 即可靠数据, 而其余大于 1 的情况为模糊数据. 作为比较, 我们分别分析教师模
型 (详见第 3.1 节) 直接预测数据为基准的分布和引入复述数据 (详见第 3.3.1 节) 进行复述增强预测的分布.
从图 5 中可以看出, 一方面, 可靠数据的数量占比较大. 在 Re-TACRED 和 SemEval 中, 可靠数据的句子数分
别达到了 3 258 和 1 568 句, 分别占全量的 17.2% 和 31.1%. 模糊数据虽然单独来看每个数量都不多, 但总量多于
可靠数据. 在本文实验中, 由于两个关系抽取任务的预定义关系类别数均比较大以及概率阈值的原因, 我们在两个
和 SemEval 上分别有 15 680 和 3 471 句模糊数据, 占比分别
达到 82.8% 和 68.9%. 这表明忽视如此大量的模糊数据是不合适的.
另一方面, 当引入复述增强方法后, 可靠数据明显增多: 在 Re-TACRED 和 SemEval 上可靠数据分别提升至
4 419 和 1 992 句, 占比提升至 23.3% 和 39.5%. 在第 4.3 节中的实验结果表明, 基于复述增强的预测方法能够带来
性能的提升, 而性能的提升显然来自新增的可靠数据. 同时, 我们还发现大部分新增可靠数据来源于正标签集合中
类别数相对较少的集合. 当正标签集合中类别数目较大时, 即令教师模型感到非常困惑的句子, 基于复述增强的预
测方法也很难再将模糊数据识别为可靠数据.