Page 218 - 《软件学报》2025年第4期
P. 218

1624                                                       软件学报  2025  年第  36  卷第  4  期


                 2   背景知识

                 2.1   关系抽取任务定义
                    关系抽取任务的目标是在给定句子中识别出实体之间的语义关系                       [41] . 根据具体应用场景, 预定义关系集合有
                 不同的设定. 比如, 在     SemEval-2010 Task 8  任务中  [4] , 关系集合主要包含因果   (cause-effect) 关系、部分-整体
                 (component-whole) 关系等; 而在  TACRED  任务  [5] 中, 关系集合主要关注面向人物和组织机构的关系, 比如夫妻关
                 系  (per:spouse)、组织机构的别名关系    (org:alternate_names) 等. 尽管不同的关系抽取任务有着不同的需求, 但在有
                                                                                              y
                 监督学习框架下的主体方法是通用的. 形式上, 假设标注数据集合为                     D = {x,y} 和关系集合为  R , 其中   表示关系类
                                                                        t
                                                      s
                 别且   y ∈ R , 而标注实例   x = {s,h,t} 分别包含句子   、头实体  h 和尾实体   . 若关系分类模型为     f  , 那么, 对于任意输
                                        y                                                          y  作为
                                                                                                    ∗
                 入   x  , 其目标是输出任一关系   的预测概率, 即       p(y|f(x))  . 最后计算每个关系的概率, 把概率最高的关系
                 输出:

                                                     y = argmax p(y| f(x))                            (1)
                                                     ∗
                                                          y∈R

                 2.2   自训练
                    自训练通常分成以下        4  个步骤.
                    (1) 利用少量人工标注数据作为种子数据, 训练一个教师模型.
                    (2) 使用教师模型对大量无标注数据进行标签预测, 从而得到自动标注数据.
                    (3) 从大量自动标注数据中挑选出高置信度数据, 并以最高预测概率对应的类别作为标签构成可靠数据.
                    (4) 将挑选出的可靠数据与种子数据合并成新的训练集, 训练一个学生模型.
                    在以上步骤中, 可靠数据的选择是自训练方法有效性的关键. 本文沿用前人的工作                          [9,11] , 当教师模型为每个未
                 标注数据完成预测, 得到所有关系的概率分布后, 通过事先设定的概率阈值, 将预测的概率分布中最高概率大于阈
                 值的数据作为可靠数据, 其对应的关系类别即为标签.

                 3   ST-LRE                            辅句 1

                    如图  3  所示, 本文提出一种自训练方法         ST-LRE. 为了在低资源场景下充分利用低置信度数据, ST-LRE               包含
                 基于复述增强的预测方法和面向模糊数据的负向训练方法. 本节首先介绍教师模型的训练方法. 随后, 给出复述数
                 据的生成方法. 接着, 详细描述如何对自动标注数据进行分类和标签生成. 最后, 我们介绍支持可靠数据和模糊数
                 据学习的学生模型联合训练方法.

                                                         主句满足阈值 T
                                               T
                                    教师                                标签
                           训练       模型                              [1, 0, 0 ,0]    种子数据
                  种子数据                           主句    辅句 1  辅句 2
                                                         辅句满足阈值 T             硬标注           联合     学生
                                                                                            训练     模型
                                               T
                    语言                     预测                         标签            可靠数据
                    模型                                               [0, 1, 0 ,0]
                            复述生成                 主句          辅句 2
                                                       主、辅均不满足阈值 T
                                               T                      标签      部分标注
                                 未标注数据                              [1, 0, 1 ,0]
                                   及其
                  未标注数据           复述数据           主句    辅句 1  辅句 2                   模糊数据
                                                  图 3 ST-LRE 自训练框架

                 3.1   教师模型的训练
                    基于人工标注的种子数据          D seed  训练有监督关系抽取的教师模型         M teacher  时  (如图  3  的左上部分), 本文沿用
   213   214   215   216   217   218   219   220   221   222   223