Page 215 - 《软件学报》2025年第4期
P. 215
郁俊杰 等: 面向低资源关系抽取的自训练方法 1621
关系抽取 (relation extraction) 是自然语言处理的一项基础任务, 其旨在获取给定句子中两个实体之间的语义
关系 [1] . 近年来, 随着“预训练-微调”范式的快速发展 [2] , 将预训练模型以微调形式应用到关系抽取任务上的方法取
得了显著进展 [3] . 然而, 关系抽取任务在实际应用中仍然受到标注数据稀缺问题的困扰. 主要原因是对于大多数基
于关系抽取的应用来说, 关系定义与具体应用场景紧密相关 [4,5] , 很难有大量定制化的标注数据. 同时, 人工标注关
系抽取数据是一项耗时耗力且昂贵的工程. 因此, 作为一种替代方案, 自动标注关系抽取数据在研究界和产业界都
引起了广泛关注 [6−8] .
自训练 (self-training) 是一种简单且有效的自动标注方法 [9] . 其基本思想是利用少量人工标注数据作为种子
数据训练一个教师模型, 然后使用教师模型去自动标注大量数据, 并从中挑选预测置信度高的数据并以硬标
注 (hard label) 模式将其作为可靠数据, 即选取预测概率最高的类别作为唯一标签. 最后, 将这些可靠数据和种
子数据一起用于训练学生模型. 由于仅需要少量种子数据, 自训练适用于低资源场景下的关系抽取任务, 更接
近于真实的应用场景. 在本文中, 我们同样采用自训练框架来提高关系抽取系统在低资源场景下的性能.
在前人的研究工作中, 研究人员通常会选择具有高置信度的自动标注实例作为可靠数据, 同时弃用剩余数据,
这种简单策略在实际应用中取得了一定的成功 [10–12] . 在高置信度数据中, 教师模型赋予某个关系远超其他关系类
甚至居住国家信息
别的预测概率, 并以此关系类别作为唯一的标签 (硬标注模式) 构造可靠数据. 在早期实验中, 我们尝试了这种简
单的自训练方案来解决低资源场景下关系抽取任务的语料稀缺问题. 从初步实验结果来看, 该方案存在两个问题
限制了自训练性能. (1) 可靠数据筛选受到制约. 由于教师模型是在少量人工标注数据上训练得到的, 其泛化能力
较差, 导致一些训练集中未出现的语义表达无法被教师模型识别, 从而影响可靠数据的筛选. (2) 无法充分利用自
动标注数据. 除了高置信度的数据可作为可靠数据外, 剩余的大量低置信度数据被弃用.
为了缓解可靠数据筛选受到制约的问题, 本文引入复述技术, 提出复述增强的预测方法帮助教师模型选择部
分低置信度数据作为可靠数据. 在本文中, 复述是指在不改变原句语义表达的前提下, 使用新的文本表达组成新句
子. 使用复述数据有助于增加未标注句子的表达多样性, 从而提高教师模型的泛化能力. 图 1(a) 中展示了复述增强
方法帮助教师模型进行预测的例子 ([ ] e 和 1 [ ] e 用于标注头尾实体). 由于原句 (左侧) 中的表达“launched by”未在
2
种子数据中出现过, 教师模型并不能正确地预测出输入句子的关系类别“org:founded_by”. 而原句的一个复述句
(右侧) 使用了更为常见的“founded by”来描述某组织机构被某人创立的语义信息, 因此, 教师模型非常有把握地将
其预测为“org:founded_by”的关系. 本文利用大型预训练语言模型 (大语言模型/LLM) 来生成复述数据. 为了提高
复述质量, 本文精心设计了面向关系抽取任务的复述生成提示语和基于实体约束的后处理方法. 在复述增强的预
测方法中, 我们将原未标注句子 (称为主句) 和生成的复述句子 (称为辅句) 组成句子包. 教师模型对句子包中的所
有句子进行标签预测. 当主句不满足高置信度条件时, 检查辅句中是否存在满足条件的预测, 若存在, 则将对应概
率分布赋予主句, 并将其以硬标注模式构建为可靠数据.
对于无法充分利用低置信度数据的问题, 通过进一步实验分析, 我们发现一些句子存在语义表达与多种关系
类别均有关联的现象. 这类现象使得教师模型感到困惑, 在部分关系类别上给出相近的预测概率, 导致数据无法被
使用. 图 1(b) 展示了一个令教师模型感到困惑的低置信度示例: 对于“Cuban President Raul Castro (古巴总统劳尔·
卡斯特罗)”的表述, 尽管表述简单但其蕴含着多种可能的语义关系. 从字面意思上来看, 就职单位信息 (per:employee_
of) 是最直接的关系. 但是, 由于单位是国家, 职位是总统, 因此一般来说也可以推断出人物原籍信息 (per:origin),
(per:countries_of_residence). 由于这些模糊关系的存在, 导致教师模型很难区分当前句子具体
属于哪一种关系. 在类似情况下, 教师模型可能会对某些容易混淆的关系给出相近的高概率而对其余关系类别给
予低概率, 或者教师模型对所有关系都没有把握, 从而对所有关系都打上相近的低概率. 在前人的研究中, 由于低
置信度的实例会带来大量的噪音, 进而导致系统的性能下降. 因此, 这类数据通常会被舍弃. 然而, 我们认为直接忽
略所有低置信度数据可能并不合适, 因为它们可能包含有用信息且能够帮助到学生模型的训练. 例如, 对于图 1(b)
中的实例, 尽管教师模型并不确定具体应该是哪种关系, 但比较肯定: 答案大概率是前 3 种关系中的一种. 理想情
况下, 我们希望能够充分利用所有自动标注的实例来改进关系抽取系统, 但噪音过多的数据的使用是非常困难的.