Page 216 - 《软件学报》2025年第4期
P. 216
1622 软件学报 2025 年第 36 卷第 4 期
因此, 本文将剩余的低置信度数据分成两个集合: 模糊数据和噪音数据. 模糊数据指的是教师模型在某些关系上预
测出相近高概率的实例, 而噪音数据则是那些教师模型对所有关系都分配了低概率的实例. 对于模糊数据, 本文做
出一个假设: 教师模型尽管不知道哪个关系是确切的答案, 但它确实知道: (1) 答案 (很大概率上) 在候选类别集合
中 (类似于图 1(b) 中的前 3 个关系); (2) 答案不在那些概率非常低 (负类别) 的类别集合之中 (类似于图 1(b) 中的
“others”). 因此, 不同于硬标注模式来处理高置信度的数据, 本文提出以部分标注 (partial label) 模式处理模糊数据,
即为每个模糊数据提供一个候选类别集合, 称为正标签集合, 而剩余类别则归类到一个负标签集合中. 基于本文假
设, 负标签集合中的类别作为答案标签的置信度低, 而相反地作为负标签则有较高的置信度. 因此, 本文利用基于
负标签集合的负向训练方法来使用模糊数据训练模型, 从而充分利用低置信度数据.
100 100 100
org:founded_by org:founded_by per:origin
org:top_members org:top_members per:employee_of
75 75 75
org:founded org:founded per:countries_of_residence
others others others
50 50 50
噪音数据
25 25 25
0 0 0
The [ABC] e1 , launched by political The [ABC] e1 , founded by political [Cuban] e2 President [Raul
Castro] e1 has met with his
veteran [Thomas Thabane] e2 veteran [Thomas Thabane] e2
Namibian counterpart
(a) 复述增强的例子 (b) 模糊关系的例子
图 1 自动标注句子样例
基于上述思路, 本文提出一种基于复述数据和模糊数据增强的自训练方法 ST-LRE (self-training approach for
low-resource relation extraction) 来充分利用自动标注数据, 具体的数据使用情况如图 2 所示. 该方法使用常见的自
训练方案, 基于少量的种子数据训练教师模型用于数据的自动标注. 但为了提高教师模型的泛化能力, ST-LRE 通
过大语言模型的复述能力来扩充未标注数据的语义表达多样性. 同时, 为了充分利用低置信度数据, ST-LRE 基于
模糊数据的概念挖掘了低置信度数据中的确定信息, 并提出面向模糊数据的部分标注模式和负向训练方法. 最终,
ST-LRE 的联合训练方法融合了可靠数据的正向训练和模糊数据的负向训练. 为了验证 ST-LRE 的能力, 本文在两
个广泛使用的关系抽取任务数据集上进行了低资源场景的实验. 实验结果表明, 本文所提方法能够有效解决低资
源场景下教师模型泛化差和低置信度数据利用率低的问题, 并最终提升关系抽取系统的性能.
通常的处理方式:
硬标注
高置信度数据 可靠数据 选用高置信度数据作为可靠数据,
其余被丢弃
复述增强 可靠数据
自动标注数据 硬标注
本文的处理方式:
低置信度数据 部分标注 模糊数据 对低置信度数据,一是使用复述增强从中
筛选可靠数据, 二是使用部分标注模式筛
丢弃 选出模糊数据
图 2 自动标注数据的处理
本文贡献可归纳如下.
(1) 提出了基于复述增强的预测方法. 通过大语言模型的复述能力增加未标注数据的表达多样性, 以此提高教
师模型的泛化能力, 进而提高可靠数据的筛选能力.
(2) 提出了一种提取低置信度数据中可用信息的方法. 基于部分标注模式获取候选类别集合的方式建立模糊
数据集, 并提出了面向模糊数据的负向训练方法.
(3) 通过两个常用关系抽取数据集上的实验验证了所提自训练方法 ST-LRE 的有效性.