Page 222 - 《软件学报》2025年第4期
P. 222

1628                                                       软件学报  2025  年第  36  卷第  4  期


                 的正向训练方法, 本文提出一种基于负标签集合的负向训练方法来使用模糊数据训练关系抽取系统. 形式上, 模糊
                                                          +                                          −
                 数据集中每个句子都被标注一个可能的正标签集合                  C  . 反之, 其余的类别都作为负类别聚集到负标签集合               C  中.
                                                       +                  C  中的负标签都不是答案”. 因此, 负向
                                                                           −
                 基于本文的假设: “教师模型虽然不知道答案是               C  中的哪一个, 但它认为
                                                                                                       −
                 训练的核心是将模型更新定义为预测负标签概率变低的方向. 因此, 对于模糊数据中的句子                            x 及其负标签集合     C  ,
                 我们受到   Ma 等人  [45] 工作的启发, 在每一轮训练前都随机从         C  中选取一个标签作为负标签   , 将其作为该轮训练
                                                                 −
                                                                                        ¯ y
                 时的标签. 因此, 最终基于交叉熵的损失函数为:

                                                             M ∑
                                                 L NT (p(x), ¯y) = −  ¯ y i log(1− p i )              (6)
                                                             i=1

                 3.4.2    支持可靠数据和模糊数据的联合训练方法
                    为了同时支持可靠数据和模糊数据训练, 本文提出一种支持正向和负向训练的联合训练方法. 为此, 首先引入
                 一个标记变量     z 来表示当前输入句子是否为部分标注的模糊数据:

                                                    {
                                                      1, if partially labeled
                                                 z =                                                  (7)
                                                      0,  others
                                                 训练句子数
                    随后, 统一训练框架下的损失函数如下所示:

                                                            M ∑
                                                 L(p(x),y) = −  y i log(|z− p i |)                    (8)
                                                            i=1
                                       y
                 其中,   |·| 表示取绝对值, 标签   对于可靠数据或种子数据来说, 是唯一的正类别位置为                   1  其余为  0  的向量. 对于部
                 分标注的模糊数据而言, 标签         y 则是负标签集合中一个随机类别对应位置为              1  而剩余为  0  的向量.

                 4   实 验

                 4.1   实验数据和设置

                    本文选取关系抽取任务中两个常用数据集进行实验.
                                            [5]
                    • Re-TACRED: 针对  TACRED 中存在错误标注和冗余关系体系的问题, 由               Stoica 等人  [46] 修正的数据集版本.
                 总共包含   91 467  个标注数据, 共覆盖    39  个关系类别和   1  个特殊的其他类别.
                    • SemEval-2010 Task 8 (简称  SemEval): 关系抽取任务的经典数据集, 包含面向       19  个类别的  10 717  个人工标
                 注数据. 19  个类别中包括     9  个需指出头、尾实体间关系指向的类别            (因此共  18  个) 和  1  个特殊的其他类别   [4] .
                    为了验证本文所提       ST-LRE  在低资源场景下的性能表现, 本文针对上述两个数据集进行如下处理: 种子数据
                 由每个关系类别随机从原始人工标注训练集中选取                  10  个样例组成, 而剩余数据作为未标注数据, 即保留原始句子
                 和实体词信息, 去掉人工标注的关系类别标签. 为了进一步模拟低资源场景, 开发集规模也被限制为每个关系类别
                 有  10  个随机样例. 同时, 特殊关系“其他类别”在两个数据集中占比很高, 比如, 在                 Re-TACRED  中占比高达    66%.
                 为了减少不平衡问题的干扰, 本文剔除了该特殊类别. 最终, 低资源场景下两数据集的统计信息如表                              1  所示.

                                                 表 1 低资源场景的数据统计

                             数据集        关系数                  开发句子数       测试句子数      未标注句子数
                           Re-TACRED      39        390         390        5 648       18 938
                             SemEval      18        180         180        2 263       5 039

                                                                                                [2]
                    对于关系抽取系统的训练, 本文沿用前人工作中                [3,8,26] 的“预训练模型-微调”范式, 并采用    BERT base 作为预训
                 练模型. 在训练过程中, 一些超参数设置如表            2  所示, 具体数值由开发集性能决定. 本文共汇报两个评价指标, 分别
                 是衡量全局整体性能的预测准确率            (Accuracy (%)) 和平衡每个关系类别性能的宏平均         F1  值  (Macro-F1 (%)). 为了
                 保证实验稳定性, 本文采用        5  个随机种子进行实验, 并以平均值结果汇报各个系统的结果.
   217   218   219   220   221   222   223   224   225   226   227