Page 221 - 《软件学报》2025年第4期
P. 221
郁俊杰 等: 面向低资源关系抽取的自训练方法 1627
表示, 若主句的最大预测概率满足可靠数据的概率阈值, 则直接将主句 x 及其预测为最大概率的类别作为标签 y
添加到可靠数据中; 否则, 如算法 1 中第 6–12 行所示, 我们将去辅句中寻找最高的预测概率, 若其满足设定的概率
阈值, 则将主句的文本内容及辅句中最大预测概率对应的类别绑定后添加到可靠数据中. 若主句和辅句都无法满
足可靠数据的概率阈值条件, 则将其传至第 2 阶段的模糊数据筛选.
本文的关系抽取任务是一种单标签多分类任务, 其标签一般采用唯一的标注模式, 即 1 个句子仅属于 1 个类
别. 在自训练框架下, 由于可靠数据是由高置信度预测的自动标注数据组成, 我们同样采取硬标注模式标注可靠数
据, 即可靠数据的标签是一个预测时最高概率值对应的类别位置为 1, 其他位置均为 0 的 one-hot 向量.
3.3.2 模糊数据的筛选与标注
对于模糊数据的筛选, 我们提出一种贪婪的概率累加方法来获得模糊数据的候选关系类别集合, 记作正标签
+
集合 C . 如算法 1 中第 13–24 行所示, 我们首先将预测的概率分布从大到小排序, 并依次累加直到概率总和满足
C 中. 若候选关
+
可靠数据的概率阈值. 同时, 将所有累加概率对应的关系类别添加到候选关系类别的正标签集合
+
系类别数目小于等于设定的值 K , 则将句子 x 和正标签集合 C 添加到模糊数据集中, 而剩余的关系类别则被认为
是负标签. 基于本文的假设“答案不在那些概率非常低的关系类别中”, 我们认为教师模型对于负标签集合中的类
图 4 3
M 为预定义关
别作为负标签有着很高的置信度. 为了充分使用自动标注数据, 我们在实验中设置 K = M −1 , 其中
系类别数目. 因此, 只要有 1 个类别被认为是负标签, 则该数据就被视为模糊数据, 而不满足条件的数据则被归类
为不可用的噪音数据 (算法 1 中第 25–26 行). 最终, 模糊数据被标注成含有多个候选正标签的形式.
由于模糊数据的标签是包含多个候选关系类别的正标签集合, 因此, 基于唯一类别的硬标注模式并不能用于
模糊数据. 否则, 由于模糊数据中最高预测概率置信度较低, 硬标注模式往往引入许多错误标注. 为了缓解噪音问
题, 前人工作中提出软标注模式 (soft label) 来处理低置信度数据 [9] . 在实际应用中, 通常直接使用教师模型预测的
概率分布作为软标签. 在模型训练时, 以标签中每个类别位置上的值作为类别权重进行模型更新. 然而, 软标注模
式并不能真正地解决噪音问题, 它只是以权重形式减少噪音的影响, 而错误标签仍然会带来错误更新. 基于上述问
题, 本文提出部分标注模式来处理模糊数据. 具体来说, 基于算法 1 得到模糊数据后, 我们以正标签集合 C 中的类
+
别对应位置为 1, 其余类别对应位置为 0 的向量标注每一个模糊数据. 图 4 展示了一个面向 4 个关系类别进行分
类的例子: 基于左侧教师模型预测的概率分布, 3 种不同标注方式的区别如右侧所示. 从图中可以看出, 虽然部分
标注方法并不能直接告诉我们答案是哪一个 (关系 1 或关系 2), 但我们能够知道答案很大概率上不在负标签集合
中 (即关系 3 和关系 4).
100
标注模式 关系 1 关系 2 关系 3 关系 4
75
硬标注 1 0 0 0
50
52
40 软标注 0.52 0.40 0.05 0.03
25
部分标注 1 1 0 0
5 3
0
关系 1 关系 2 关系 3 关系 4
种数据标注模式
3.4 学生模型的训练
当获得自动标注的可靠数据和模糊数据后, 我们将这些数据与种子数据组成新的训练集, 用于学生模型的训
练. 对于可靠数据, 我们直接使用第 3.1 节中教师模型的正向训练方法. 对于模糊数据, 本文提出基于负标签集合
的负向训练方法. 为了融合两种训练方式, 本文最终提出一种支持可靠数据和模糊数据的联合训练方法.
3.4.1 面向模糊数据的负向训练方法
受到 Kim 等人 [44] 和 Ma 等人 [45] 工作中关于负向训练方法 (negative training) 的启发, 不同于面向硬标注数据