Page 71 - 《软件学报》2021年第10期
P. 71

徐东钦  等:基于多任务预训练的 AMR 文本生成研究                                                     3043


                 4.3   评价方法
                    为评估生成文本的性能,本文使用了多个评测指标,包括 BLEU                   [41] 、Meteor [42] 、chrF++ [43] 和 BERTScore [44] .
                 与前三者不同,BERTScore 的计算并不直接依赖于生成的文本和正确文本之间相同的词形,即:通过 BERT 获取
                 自动生成的文本和正确文本的语义表示向量,然后再通过计算向量之间的相似度来获取两个文本之间的
                 BERTScore 值,而不直接依赖于文本中的相同词和词串.这一点与 AMR 文本生成任务非常贴切,因为同一个
                 AMR 图可以表示为多个不同但意义相同的句子.
                    此外,BLEU 是基于语料级的评测,而后三者是基于句子级的评测.
                 4.4   实验结果
                    表 3 给出了各预训练模型在 AMR2.0 和 AMR3.0 测试集上的性能.

                                     Table 3  AMR-to-text performance on AMR2.0 and AMR3.0
                                    表 3   AMR 文本生成在 AMR2.0 和 AMR3.0 测试集上的性能
                                                      AMR2.0                       AMR3.0
                      #    预训练       微调
                                           BLEU  Meteor  chrF++  BERTScore  BLEU  Meteor  chrF++  BERTScore
                      1     None     None  28.03  34.08  61.35   93.19   31.40  36.48  64.20  94.00
                      2    DAE(T)   Vanilla  31.38  35.84  63.62  93.80  32.15  36.71  65.04  94.03
                      3              MTL   33.59  36.98  65.51   94.28   34.58  37.71  66.61  94.61
                      4    DAE(S)   Vanilla  31.12  36.02  63.59  93.79  32.54  37.09  65.23  94.19
                      5              MTL   34.53  37.98  66.40   94.48   34.72  38.07  66.79  94.41
                      6     A2T     Vanilla  38.77  39.86  67.12  94.65  37.64  39.20  66.60  94.63
                      7    DAE(S)+   Vanilla  32.95  36.78  64.80  94.10  34.42  37.64  66.28  94.45
                      8    DAE(T)    MTL   34.58  37.76  66.13   94.52   35.41  38.42  67.12  94.73
                      9             Vanilla  39.63  40.37  68.48  94.97  38.17  39.59  66.86  94.74
                     10  DAE(S)+A2T   MTL  39.82  40.34  68.51   95.03   39.23  40.20  67.12  94.84
                     11   DAE(T)+A2T   Vanilla  39.21  39.97  68.58  94.52  37.46  39.27  65.85  94.56
                     12              MTL   39.37  40.06  68.31   94.97   37.35  39.26  66.06  94.50
                     13    DAE(S)+   Vanilla   40.35   40.57  68.52  95.04  38.11  39.65  65.00  94.37
                     14  DAE(T)+A2T   MTL  40.30  40.66  68.82   95.11   38.97  40.10  67.07   94.73
                    从实验结果可以看出:
                       基于单任务的预训练(#2~#6)显著提高了 AMR 文本生成的性能,这说明基于序列到序列的预训练模型
                        有助于 AMR 文本生成.其中,A2T 的预训练,即基于大规模自动 AMR 文本分析语料,提升幅度最大,在
                        AMR2.0 上提高了 10.74 个 BLEU 值.难能可贵的是,虽然 DAE(S)和 DAE(T)这两个预训练任务与 AMR
                        文本生成任务并不直接相关,通过把已训练好的模型参数迁移到 AMR 文本生成模型来帮助后者训练,
                        使得后者不用像大多数模型那样从零开始学习;
                       两个或更多任务上的联合预训练与单任务预训练相比,进一步提高了 AMR 文本生成的性能.例如:相
                        比于 A2T 单任务,联合 DAE(S)和 DAE(T)之后,AMR2.0 上的性能 BLEU 值由 38.77 提高至 40.30;
                       MTL 微调取得比 Vanilla 微调更好的性能.例如:基于 DAE(S)和 DAE(T)两个单任务,MTL 微调较之
                        Vanilla 微调,提高 2~3 个 BLEU 值.然而,基于两个或更多预训练任务,随着 AMR 文本生成性能的进一
                        步提高,MTL 微调的优势逐渐变得不明显;
                       由于 AMR3.0 较 AMR2.0 有更多的训练语料和测试数据,基准系统在 AMR3.0 上的性能明显高于
                        AMR2.0.但是,随着预训练模型的使用和性能的不断提升,AMR3.0 上的性能优势逐渐变得不明显.

                 4.5   与相关工作的比较
                    目前,AMR 文本分析的相关工作仍然聚焦于设计更优的图到序列(Graph2Seq)模型.作为最新工作的代表,
                 Song 等人 [26] 在 Zhu 等人 [10] 的图模型的基础上,进一步提出了从目标端构造线性化 AMR,在 AMR2.0 上取得了
                 34.13 的性能,远高于本文基准系统的性能.
                    表 4 比较了本文工作与相关工作的性能.其中,Reconstructor 的性能是指 Song 等人                       [26] 的 Loss 2:
                 Reconstructing Linearized 方法.我们使用 Song 等人 [26] 的开源代码,首先使用本文 0.39M 自动标注语料进行预训
   66   67   68   69   70   71   72   73   74   75   76