Page 224 - 《软件学报》2025年第4期
P. 224

1630                                                       软件学报  2025  年第  36  卷第  4  期



                                         表 4 本文系统与比较系统的实验结果            (测试集)(%)

                                                         Training data     Re-TACRED         SemEval
                                 Method
                                                      D seed  D con  D amb  Accuracy  Macro-F1  Accuracy  Macro-F1
                                     ChatGLM2-6B 5-shot  √   ×     ×     17.3     18.8    15.4     10.8
                                     ChatGLM2-6B 10-shot  √  ×     ×     17.8     18.3    15.0     11.9
                  LLM-FewShot-Random
                                    LLaMa2-7B-chat 5-shot  √  ×    ×     32.3     41.5    21.7     17.1
                                    LLaMa2-7B-chat 10-shot  √  ×   ×     33.8     40.3    22.4     18.3
                                     ChatGLM2-6B 5-shot  √   ×     ×     41.4     43.9    44.1     40.9
                                     ChatGLM2-6B 10-shot  √  ×     ×     45.9     46.8    50.5     47.5
                  LLM-FewShot-Retriever
                                    LLaMa2-7B-chat 5-shot  √  ×    ×     60.1     60.5    49.0     44.7
                                    LLaMa2-7B-chat 10-shot  √  ×   ×     62.9     60.9    61.2     57.2
                               Supervised               √    ×     ×     61.6     53.6    66.8     59.9
                              Confidence-ST             √    √     ×     66.9     58.8    77.1     69.4
                               的性能表现显著优于使用相同文本数据
                              HardLabel-ST              √    √     √     65.3     57.3    69.6     62.5
                               SoftLabel-ST             √    √     √     64.2     56.6    69.2     62.6
                                 STAD                   √    √     √     74.6     62.5    78.1     72.0
                              ST-LRE (ours)             √    √     √     75.8     63.5    79.5     73.3

                    从表  4  中我们可以得出以下结论.
                    • 基于大语言模型的少样本上下文学习             (ICL) 方法  (LLM-FewShot-Random  或  LLM-FewShot-Retriever) 表现
                 一般. 特别是基于随机样本的         ICL  方法, 更多的样例并没有带来性能的提升, 其性能在两个数据集上表现远低于基
                 于  BERT  微调的  Supervised  系统. 当调用  Supervised  系统中编码层模块用于  ICL 方法的样本检索后, 性能显著提
                 升, 特别是使用更多上下文样例时           (10-shot vs. 5-shot), 具有检索功能的  ICL  方法能够进一步取得提升. 尽管如此,
                 大部分结果仍低于仅使用种子数据集直接训练的                   Supervised  系统, 仅有基于  LLaMa2-7B-chat 的系统在    Re-
                 TACRED  数据集上高于     Supervised  系统. 这些实验结果表明在关系抽取任务上, 基于大语言模型的少样本                  ICL  方
                 法与基于较小规模预训练模型           (如  BERT) 的微调方法相比仍有差距.
                                          (D seed ) 的  Supervised        (D con ) 的自训练方法  Confidence-ST  取得
                    • 相比于仅使用种子数据集                        系统, 添加可靠数据
                 显著提升: 在   Re-TACRED  上, Accuracy 值提高了  5.3% (66.9% vs. 61.6%), Macro-F1  值提高了  5.2% (58.8% vs.
                 53.6%); 在  SemEval 上, Accuracy 值提高了  10.3% (77.1% vs. 66.8%), Macro-F1  值提高了  9.5% (69.4% vs. 59.9%).
                 这个结果表明, 基于概率阈值筛选可靠数据的自训练方法在低资源场景下是一个简单而有效的方法.
                    • 相比于  Confidence-ST  系统, 额外加入模糊数据     (D amb ) 的  HardLabel-ST 和 SoftLabel-ST  两个自训练系统都
                 表现不佳, 特别是在      SemEval 数据集上, HardLabel-ST  和 SoftLabel-ST  的  Accuracy 值下降分别达到了  7.5%  和
                 7.9%, Macro-F1  值下降分别达到了   6.9%  和  6.8%, 降幅明显. 尽管两者性能均优于      Supervised  系统, 但我们认为这
                 主要源于可靠数据带来的性能提升. 这些结果说明在自训练框架下, 无论是使用最高概率的硬标注模式还是使用
                 概率分布的软标注模式, 当引入低置信度数据时不可避免地会带入大量噪音, 导致性能下降.
                    • 本文所提   ST-LRE  不仅相比于   Supervised  系统取得了显著的提升     (在两个评价指标上性能提升都在            10%  以
                 上), 而且  ST-LRE                               (D con + D amb ) 但不同标注和训练方式的  HardLabel-ST 和
                 SoftLabel-ST  两个系统. 相比于  Confidence-ST  系统, 本文方法能够取得明显的提升: 在       Re-TACRED  上, Accuracy
                 值提升达到了     8.9% (75.8% vs. 66.9%), Macro-F1  值提升达到了  4.7% (63.5% vs. 58.8%); 在  SemEval 上, Accuracy
                 值提高了    2.4% (79.5% vs. 77.1%), Macro-F1  值提高了  3.9% (73.3% vs. 69.4%). 此外, 相比于不使用复述增强的
                 STAD  系统, 本文的   ST-LRE  能够取得进一步的提升. 这说明本文所提复述增强方法能够在抑制低置信度数据中
                 噪音的同时, 充分利用其包含的有用信息.
   219   220   221   222   223   224   225   226   227   228   229