Page 73 - 《软件学报》2021年第10期
P. 73
徐东钦 等:基于多任务预训练的 AMR 文本生成研究 3045
从图 4 可以看出:
对于单预训练任务和多预训练任务,随着预训练数据集规模的扩大,AMR 文本生成的性能也逐渐提高;
此外,在本文使用的预训练数据集的基础上,如果继续扩大数据的规模,则 AMR 文本生成的性能仍具
有提升空间,特别是 DAE(S)和 DAE(T)这两个预训练任务;
基于各个不同规模的预训练集,模型的性能趋势是一致的,即:基于 3 个联合预训练任务的 AMR 文本生
成性能最佳,随后分别是 A2T、DAE(T)和 DAE(S)这 3 个单预训练任务;
当预训练数据集规模较小时(如图中的 20%和 40%),DAE(S)和 DAE(T)两个预训练任务的 AMR 文本生
成性能甚至低于基准系统的性能.这说明,当训练语料较小时,预训练模型容易产生过拟合现象,反而负
面影响了后续任务.
5.2 AMR自动标注语料质量对AMR文本分析性能的影响
从第 4 节的实验结果可以看出,基于 AMR 自动标注语料的预训练能够大幅度提高 AMR 文本生成的性能
(见表 3 中的#1 和#6).因此,本节分析在预训练语料中,AMR 自动标注语料质量对后续 AMR 文本生成性能的影
响.为了获取质量更佳的 AMR 自动标注语料,本文使用类似融合大规模自动标注语料的 AMR 分析器,该分析器
在 AMR2.0 测试集上的性能达到 81.40 Smatch F1,远高于本文第 4 节中使用的 AMR 分析器.
表 5 给出了在使用不同质量的 AMR 自动标注语料时,AMR 文本生成取得的性能.从中可以看出:得益于自
动标注语料质量的提升,基于本文预训练任务的 AMR 文本生成性能也得到了进一步的提升.例如,基于 3 个联
合预训练任务,AMR 文本分析性能 BLEU 值由 40.30 提高至 42.22.
Table 5 Performance comparision of AMR-to-text generation
when using pre-training datasets of different qualities
表 5 在使用不同质量 AMR 自动标注语料时,AMR 文本生成性能的比较
预训练 AMR 分析器 BLEU Meteor chrF++ BERTScore
73.21 38.77 39.86 67.12 94.65
A2T
81.40 40.14 40.55 67.45 94.73
DAE(S)+ 73.21 40.30 40.66 68.82 95.11
DAE(T)+A2T 81.40 42.22 41.49 69.35 95.13
注:其中,73.21 和 81.40 分别是指对应的 AMR 分析器在 AMR2.0 测试集上的性能 Smatch F1 值
5.3 不同复杂度AMR的文本生成性能的影响
一般来讲,AMR 图越简单,其文本生成的性能越好,反之越差.为了进一步分析预训练模型对不同复杂度
AMR 的文本生成性能的影响,本文简单地分别以 AMR 节点数和 AMR 重入节点数的多少作为 AMR 复杂度的
衡量.对测试集中的样例,根据 AMR 节点数和重入节点数进行分组,并评估各组的性能 BLEU 值.图 5 给出了不
同复杂度 AMR 的文本生成性能.
从图 5(a)中可以看出:随着 AMR 中重入节点数量的增加,3 个系统的性能均呈现不同程度的下降.当重入节
点数从 0 增加到 2 时,模型的性能虽有下降(除重入节点数 2 外),但幅度不大;而当重入节点数从 2 变为更多时,
模型性能下降得非常明显.相对而言,本文最优模型受重入节点数的影响要较另两个模型更加缓和.值得注意的
是:即使是对于重入节点超过 5 的 AMR 图,本文最优模型取得的性能与基准模型在重入节点为 0 的 AMR 图上
的性能相当(32.29 vs. 32.48).
从图 5(b)可以看出:当 AMR 中节点数量在 20 以内时,基准系统的性能较为稳定;但当节点数量超过 10 后,
模型的性能呈现断崖式的下降,且随着节点数量的增加,基准系统的性能持续下降.例如:当节点数超过 10 时,
AMR 文本生成性能由 BLEU 值 40.32 下降到 25.64.相比于基准系统,A2T 与 DAE(S)+DAE(T)+A2T 系统的性能
要稳定得多.例如:当 AMR 中节点数量大于 20 时,模型的性能趋于稳定,保持较高的水准.
经过以上对图 5 的分析可知:预训练模型的性能相比基准系统的性能有明显的提升,且可以在 AMR 节点数
量较多时保持较为稳定的性能,但重入节点问题依旧是其面临的一个挑战.重入节点过多引起性能下降的主要