Page 218 - 《软件学报》2025年第4期
P. 218
1624 软件学报 2025 年第 36 卷第 4 期
2 背景知识
2.1 关系抽取任务定义
关系抽取任务的目标是在给定句子中识别出实体之间的语义关系 [41] . 根据具体应用场景, 预定义关系集合有
不同的设定. 比如, 在 SemEval-2010 Task 8 任务中 [4] , 关系集合主要包含因果 (cause-effect) 关系、部分-整体
(component-whole) 关系等; 而在 TACRED 任务 [5] 中, 关系集合主要关注面向人物和组织机构的关系, 比如夫妻关
系 (per:spouse)、组织机构的别名关系 (org:alternate_names) 等. 尽管不同的关系抽取任务有着不同的需求, 但在有
y
监督学习框架下的主体方法是通用的. 形式上, 假设标注数据集合为 D = {x,y} 和关系集合为 R , 其中 表示关系类
t
s
别且 y ∈ R , 而标注实例 x = {s,h,t} 分别包含句子 、头实体 h 和尾实体 . 若关系分类模型为 f , 那么, 对于任意输
y y 作为
∗
入 x , 其目标是输出任一关系 的预测概率, 即 p(y|f(x)) . 最后计算每个关系的概率, 把概率最高的关系
输出:
y = argmax p(y| f(x)) (1)
∗
y∈R
2.2 自训练
自训练通常分成以下 4 个步骤.
(1) 利用少量人工标注数据作为种子数据, 训练一个教师模型.
(2) 使用教师模型对大量无标注数据进行标签预测, 从而得到自动标注数据.
(3) 从大量自动标注数据中挑选出高置信度数据, 并以最高预测概率对应的类别作为标签构成可靠数据.
(4) 将挑选出的可靠数据与种子数据合并成新的训练集, 训练一个学生模型.
在以上步骤中, 可靠数据的选择是自训练方法有效性的关键. 本文沿用前人的工作 [9,11] , 当教师模型为每个未
标注数据完成预测, 得到所有关系的概率分布后, 通过事先设定的概率阈值, 将预测的概率分布中最高概率大于阈
值的数据作为可靠数据, 其对应的关系类别即为标签.
3 ST-LRE 辅句 1
如图 3 所示, 本文提出一种自训练方法 ST-LRE. 为了在低资源场景下充分利用低置信度数据, ST-LRE 包含
基于复述增强的预测方法和面向模糊数据的负向训练方法. 本节首先介绍教师模型的训练方法. 随后, 给出复述数
据的生成方法. 接着, 详细描述如何对自动标注数据进行分类和标签生成. 最后, 我们介绍支持可靠数据和模糊数
据学习的学生模型联合训练方法.
主句满足阈值 T
T
教师 标签
训练 模型 [1, 0, 0 ,0] 种子数据
种子数据 主句 辅句 1 辅句 2
辅句满足阈值 T 硬标注 联合 学生
训练 模型
T
语言 预测 标签 可靠数据
模型 [0, 1, 0 ,0]
复述生成 主句 辅句 2
主、辅均不满足阈值 T
T 标签 部分标注
未标注数据 [1, 0, 1 ,0]
及其
未标注数据 复述数据 主句 辅句 1 辅句 2 模糊数据
图 3 ST-LRE 自训练框架
3.1 教师模型的训练
基于人工标注的种子数据 D seed 训练有监督关系抽取的教师模型 M teacher 时 (如图 3 的左上部分), 本文沿用