Page 73 - 《软件学报》2021年第10期
P. 73

徐东钦  等:基于多任务预训练的 AMR 文本生成研究                                                     3045


                    从图 4 可以看出:
                       对于单预训练任务和多预训练任务,随着预训练数据集规模的扩大,AMR 文本生成的性能也逐渐提高;
                        此外,在本文使用的预训练数据集的基础上,如果继续扩大数据的规模,则 AMR 文本生成的性能仍具
                        有提升空间,特别是 DAE(S)和 DAE(T)这两个预训练任务;
                       基于各个不同规模的预训练集,模型的性能趋势是一致的,即:基于 3 个联合预训练任务的 AMR 文本生
                        成性能最佳,随后分别是 A2T、DAE(T)和 DAE(S)这 3 个单预训练任务;
                       当预训练数据集规模较小时(如图中的 20%和 40%),DAE(S)和 DAE(T)两个预训练任务的 AMR 文本生
                        成性能甚至低于基准系统的性能.这说明,当训练语料较小时,预训练模型容易产生过拟合现象,反而负
                        面影响了后续任务.
                 5.2   AMR自动标注语料质量对AMR文本分析性能的影响

                    从第 4 节的实验结果可以看出,基于 AMR 自动标注语料的预训练能够大幅度提高 AMR 文本生成的性能
                 (见表 3 中的#1 和#6).因此,本节分析在预训练语料中,AMR 自动标注语料质量对后续 AMR 文本生成性能的影
                 响.为了获取质量更佳的 AMR 自动标注语料,本文使用类似融合大规模自动标注语料的 AMR 分析器,该分析器
                 在 AMR2.0 测试集上的性能达到 81.40 Smatch F1,远高于本文第 4 节中使用的 AMR 分析器.
                    表 5 给出了在使用不同质量的 AMR 自动标注语料时,AMR 文本生成取得的性能.从中可以看出:得益于自
                 动标注语料质量的提升,基于本文预训练任务的 AMR 文本生成性能也得到了进一步的提升.例如,基于 3 个联
                 合预训练任务,AMR 文本分析性能 BLEU 值由 40.30 提高至 42.22.
                                     Table 5    Performance comparision of AMR-to-text generation
                                        when using pre-training datasets of different qualities
                               表 5   在使用不同质量 AMR 自动标注语料时,AMR 文本生成性能的比较
                              预训练      AMR 分析器       BLEU       Meteor     chrF++    BERTScore
                                          73.21      38.77      39.86       67.12      94.65
                               A2T
                                          81.40      40.14      40.55       67.45      94.73
                             DAE(S)+      73.21      40.30      40.66       68.82      95.11
                            DAE(T)+A2T    81.40      42.22      41.49       69.35      95.13
                           注:其中,73.21 和 81.40 分别是指对应的 AMR 分析器在 AMR2.0 测试集上的性能 Smatch F1 值
                 5.3   不同复杂度AMR的文本生成性能的影响
                    一般来讲,AMR 图越简单,其文本生成的性能越好,反之越差.为了进一步分析预训练模型对不同复杂度
                 AMR 的文本生成性能的影响,本文简单地分别以 AMR 节点数和 AMR 重入节点数的多少作为 AMR 复杂度的
                 衡量.对测试集中的样例,根据 AMR 节点数和重入节点数进行分组,并评估各组的性能 BLEU 值.图 5 给出了不
                 同复杂度 AMR 的文本生成性能.
                    从图 5(a)中可以看出:随着 AMR 中重入节点数量的增加,3 个系统的性能均呈现不同程度的下降.当重入节
                 点数从 0 增加到 2 时,模型的性能虽有下降(除重入节点数 2 外),但幅度不大;而当重入节点数从 2 变为更多时,
                 模型性能下降得非常明显.相对而言,本文最优模型受重入节点数的影响要较另两个模型更加缓和.值得注意的
                 是:即使是对于重入节点超过 5 的 AMR 图,本文最优模型取得的性能与基准模型在重入节点为 0 的 AMR 图上
                 的性能相当(32.29 vs. 32.48).
                    从图 5(b)可以看出:当 AMR 中节点数量在 20 以内时,基准系统的性能较为稳定;但当节点数量超过 10 后,
                 模型的性能呈现断崖式的下降,且随着节点数量的增加,基准系统的性能持续下降.例如:当节点数超过 10 时,
                 AMR 文本生成性能由 BLEU 值 40.32 下降到 25.64.相比于基准系统,A2T 与 DAE(S)+DAE(T)+A2T 系统的性能
                 要稳定得多.例如:当 AMR 中节点数量大于 20 时,模型的性能趋于稳定,保持较高的水准.
                    经过以上对图 5 的分析可知:预训练模型的性能相比基准系统的性能有明显的提升,且可以在 AMR 节点数
                 量较多时保持较为稳定的性能,但重入节点问题依旧是其面临的一个挑战.重入节点过多引起性能下降的主要
   68   69   70   71   72   73   74   75   76   77   78