Page 216 - 《软件学报》2025年第4期
P. 216

1622                                                       软件学报  2025  年第  36  卷第  4  期


                 因此, 本文将剩余的低置信度数据分成两个集合: 模糊数据和噪音数据. 模糊数据指的是教师模型在某些关系上预
                 测出相近高概率的实例, 而噪音数据则是那些教师模型对所有关系都分配了低概率的实例. 对于模糊数据, 本文做
                 出一个假设: 教师模型尽管不知道哪个关系是确切的答案, 但它确实知道: (1) 答案                      (很大概率上) 在候选类别集合
                 中  (类似于图  1(b) 中的前  3  个关系); (2) 答案不在那些概率非常低       (负类别) 的类别集合之中        (类似于图   1(b) 中的
                 “others”). 因此, 不同于硬标注模式来处理高置信度的数据, 本文提出以部分标注                  (partial label) 模式处理模糊数据,
                 即为每个模糊数据提供一个候选类别集合, 称为正标签集合, 而剩余类别则归类到一个负标签集合中. 基于本文假
                 设, 负标签集合中的类别作为答案标签的置信度低, 而相反地作为负标签则有较高的置信度. 因此, 本文利用基于
                 负标签集合的负向训练方法来使用模糊数据训练模型, 从而充分利用低置信度数据.

                    100                          100                        100
                                  org:founded_by               org:founded_by        per:origin
                                  org:top_members              org:top_members       per:employee_of
                    75                            75                         75
                                  org:founded                  org:founded           per:countries_of_residence
                                  others                       others                others
                    50                            50                         50
                                                         噪音数据
                    25                            25                         25
                     0                             0                         0
                        The [ABC] e1 , launched by political  The [ABC] e1 , founded by political  [Cuban] e2  President [Raul
                                                                                 Castro] e1  has met with his
                          veteran [Thomas Thabane] e2  veteran [Thomas Thabane] e2
                                                                                   Namibian counterpart
                                           (a) 复述增强的例子                             (b) 模糊关系的例子
                                                   图 1 自动标注句子样例

                    基于上述思路, 本文提出一种基于复述数据和模糊数据增强的自训练方法                         ST-LRE (self-training approach for
                 low-resource relation extraction) 来充分利用自动标注数据, 具体的数据使用情况如图       2  所示. 该方法使用常见的自
                 训练方案, 基于少量的种子数据训练教师模型用于数据的自动标注. 但为了提高教师模型的泛化能力, ST-LRE                               通
                 过大语言模型的复述能力来扩充未标注数据的语义表达多样性. 同时, 为了充分利用低置信度数据, ST-LRE                               基于
                 模糊数据的概念挖掘了低置信度数据中的确定信息, 并提出面向模糊数据的部分标注模式和负向训练方法. 最终,
                 ST-LRE  的联合训练方法融合了可靠数据的正向训练和模糊数据的负向训练. 为了验证                        ST-LRE  的能力, 本文在两
                 个广泛使用的关系抽取任务数据集上进行了低资源场景的实验. 实验结果表明, 本文所提方法能够有效解决低资
                 源场景下教师模型泛化差和低置信度数据利用率低的问题, 并最终提升关系抽取系统的性能.

                                                                             通常的处理方式:
                                                 硬标注
                                       高置信度数据            可靠数据          选用高置信度数据作为可靠数据,
                                                                              其余被丢弃
                                                复述增强     可靠数据
                         自动标注数据                  硬标注
                                                                             本文的处理方式:
                                       低置信度数据   部分标注     模糊数据        对低置信度数据,一是使用复述增强从中
                                                                     筛选可靠数据, 二是使用部分标注模式筛
                                                  丢弃                          选出模糊数据

                                                  图 2 自动标注数据的处理

                    本文贡献可归纳如下.
                    (1) 提出了基于复述增强的预测方法. 通过大语言模型的复述能力增加未标注数据的表达多样性, 以此提高教
                 师模型的泛化能力, 进而提高可靠数据的筛选能力.
                    (2) 提出了一种提取低置信度数据中可用信息的方法. 基于部分标注模式获取候选类别集合的方式建立模糊
                 数据集, 并提出了面向模糊数据的负向训练方法.
                    (3) 通过两个常用关系抽取数据集上的实验验证了所提自训练方法                     ST-LRE  的有效性.
   211   212   213   214   215   216   217   218   219   220   221