Page 217 - 《软件学报》2025年第4期
P. 217

郁俊杰 等: 面向低资源关系抽取的自训练方法                                                          1623


                 1   相关工作

                 1.1   低资源关系抽取

                    近年来, 由于标注数据获取困难的问题, 低资源场景关系抽取任务受到了广泛的关注                            [13] . 低资源关系抽取通
                 常指的是在仅有少量标注样本的前提下构建关系抽取系统. 由于人工标注费时费力, 如何低成本地扩充标注数据
                 或增强已有标注数据的表达能力成为低资源关系抽取的重点. 为此, 一个方向是引入外部知识来增强已有数据的
                 表达. 比如, 欧阳丹彤等人      [14] 基于本体的远程监督方式进行样本扩充. 此外, Yang           等人  [15] 提出引入实体概念知识
                 库中的信息来增强实体的表达能力. 相应地, 引入关系类别的语义信息也是缓解数据匮乏问题的有效方法                                 [16,17] . 另
                 一个方向是基于自动标注的方法来扩大数据样本的规模. 比如, 基于现有的关系知识库, Mintz 等人                           [6] 提出远程监
                 督技术来生成大规模自动标注数据. 相似地, 朱苏阳等人                 [18] 基于中文维基百科中的半结构化知识, 构建了面向家
                 庭关系的数据集. 基于机器翻译系统, 胡亚楠等人              [19] 通过对源端语料的翻译获得目标端的关系抽取数据. 相似地,
                 Yu  等人  [8] 通过回译技术来获得已有语料的复述表达. 自训练作为常见的语料扩充技术, 因其仅依赖少量样本的特
                 对关系抽取任务的部分标注指提供一个候选的答案集合
                 点, 被广泛地应用于各式各样的分类任务中             [9,20] . 本文针对低资源场景下的关系抽取任务, 在自训练的基础上, 提出
                 复述增强和模糊数据增强的方法以提高自训练的性能.

                 1.2   自训练
                    为了获取自动标注数据, 自训练是一个历史源远流长且广泛使用的方法                        [21] . 近年来, 随着深度学习的发展, 自
                 然语言处理任务对标注数据的需求越来越大, 自训练在研究界再次变得热门. 自训练被广泛应用于神经机器翻
                 译  [22] 、问答  [23] 以及低资源场景下的句法分析任务      [24] . 针对关系抽取任务, Hu  等人  [25] 提出使用基于元学习的自训
                 练方法为未标注数据生成可靠的关系类别. Xu              等人  [26] 借助大型语言模型首先生成大量未标注数据, 随后以软标注
                 模式标注自动生成的数据. 针对低资源场景下的关系抽取任务, 本文同样采用自训练方法获取自动标注数据. 与前
                 人工作不同的是, 本文提出的自训练方法充分使用低置信度数据, 而这些数据由于噪音问题在前人工作中通常是
                 被忽视的.

                 1.3   基于大模型的复述生成
                    由于文本表达的多样性特点, 复述技术是常见的数据增强方法                     [27,28] . 近年来, 随着大语言模型的兴起, 探索大
                 语言模型的文本生成能力成为热点            [29] . Brown  等人  [30] 通过实验分析了大语言模型的零样本生成能力, 即仅仅依靠
                 目标任务的描述信息, 就能够为输入生成对应的输出. Kojima 等人                [31] 进一步探索了大语言模型在数学问题上的推
                 理能力. Liu  等人  [32] 则是综合总结当前大语言模型的多种用法和微调范式. 针对自然语言生成任务的评价单一性
                 问题, Tang  等人  [33] 利用大语言模型扩充答案多样性, 从而加强现有测试基准的评价能力. 大量研究都表明, 经过大
                 规模数据预训练的大语言模型能够胜任许多文本生成任务, 如句子翻译、文本摘要和复述生成等. 因此, 本文使用
                 大语言模型的复述能力为未标注数据构建可靠的复述支持包, 进而在自训练框架下提高教师模型的泛化能力, 使

                 其能够从同一语义表达的不同文本表述中识别出高置信度的标签预测.

                 1.4   部分标注
                    为了利用模糊数据中的可用信息, 本文提出了面向模糊数据的部分标注模式. 作为一项单标签多类别任务, 针
                                                            [34]                    [35]              [36]
                                                              . 这一点不同于序列标注任务          和多标签多类别任务
                 中的部分标注方式, 前者是指仅提供序列中部分节点的标签, 后者是指仅给出答案标签集合中的部分标签. 为了训
                 练基于部分标注的数据, 前人的工作提出了一系列研究方法                   [37] . Feng  等人  [38] 提出在自我指导式的迭代训练中融入
                 部分标注数据的学习. 此外, Yan 等人        [39] 同样提出重复计算候选集中标签置信度的方法来利用部分标注数据. Wu
                 等人  [40] 针对部分标注数据的训练, 提出了一种面向候选标签集的一致性约束方法. 本文结合自训练框架下模糊数
                 据的特性, 提出了基于负标签集合的负向训练方法.
   212   213   214   215   216   217   218   219   220   221   222