Page 71 - 《软件学报》2021年第10期
P. 71
徐东钦 等:基于多任务预训练的 AMR 文本生成研究 3043
4.3 评价方法
为评估生成文本的性能,本文使用了多个评测指标,包括 BLEU [41] 、Meteor [42] 、chrF++ [43] 和 BERTScore [44] .
与前三者不同,BERTScore 的计算并不直接依赖于生成的文本和正确文本之间相同的词形,即:通过 BERT 获取
自动生成的文本和正确文本的语义表示向量,然后再通过计算向量之间的相似度来获取两个文本之间的
BERTScore 值,而不直接依赖于文本中的相同词和词串.这一点与 AMR 文本生成任务非常贴切,因为同一个
AMR 图可以表示为多个不同但意义相同的句子.
此外,BLEU 是基于语料级的评测,而后三者是基于句子级的评测.
4.4 实验结果
表 3 给出了各预训练模型在 AMR2.0 和 AMR3.0 测试集上的性能.
Table 3 AMR-to-text performance on AMR2.0 and AMR3.0
表 3 AMR 文本生成在 AMR2.0 和 AMR3.0 测试集上的性能
AMR2.0 AMR3.0
# 预训练 微调
BLEU Meteor chrF++ BERTScore BLEU Meteor chrF++ BERTScore
1 None None 28.03 34.08 61.35 93.19 31.40 36.48 64.20 94.00
2 DAE(T) Vanilla 31.38 35.84 63.62 93.80 32.15 36.71 65.04 94.03
3 MTL 33.59 36.98 65.51 94.28 34.58 37.71 66.61 94.61
4 DAE(S) Vanilla 31.12 36.02 63.59 93.79 32.54 37.09 65.23 94.19
5 MTL 34.53 37.98 66.40 94.48 34.72 38.07 66.79 94.41
6 A2T Vanilla 38.77 39.86 67.12 94.65 37.64 39.20 66.60 94.63
7 DAE(S)+ Vanilla 32.95 36.78 64.80 94.10 34.42 37.64 66.28 94.45
8 DAE(T) MTL 34.58 37.76 66.13 94.52 35.41 38.42 67.12 94.73
9 Vanilla 39.63 40.37 68.48 94.97 38.17 39.59 66.86 94.74
10 DAE(S)+A2T MTL 39.82 40.34 68.51 95.03 39.23 40.20 67.12 94.84
11 DAE(T)+A2T Vanilla 39.21 39.97 68.58 94.52 37.46 39.27 65.85 94.56
12 MTL 39.37 40.06 68.31 94.97 37.35 39.26 66.06 94.50
13 DAE(S)+ Vanilla 40.35 40.57 68.52 95.04 38.11 39.65 65.00 94.37
14 DAE(T)+A2T MTL 40.30 40.66 68.82 95.11 38.97 40.10 67.07 94.73
从实验结果可以看出:
基于单任务的预训练(#2~#6)显著提高了 AMR 文本生成的性能,这说明基于序列到序列的预训练模型
有助于 AMR 文本生成.其中,A2T 的预训练,即基于大规模自动 AMR 文本分析语料,提升幅度最大,在
AMR2.0 上提高了 10.74 个 BLEU 值.难能可贵的是,虽然 DAE(S)和 DAE(T)这两个预训练任务与 AMR
文本生成任务并不直接相关,通过把已训练好的模型参数迁移到 AMR 文本生成模型来帮助后者训练,
使得后者不用像大多数模型那样从零开始学习;
两个或更多任务上的联合预训练与单任务预训练相比,进一步提高了 AMR 文本生成的性能.例如:相
比于 A2T 单任务,联合 DAE(S)和 DAE(T)之后,AMR2.0 上的性能 BLEU 值由 38.77 提高至 40.30;
MTL 微调取得比 Vanilla 微调更好的性能.例如:基于 DAE(S)和 DAE(T)两个单任务,MTL 微调较之
Vanilla 微调,提高 2~3 个 BLEU 值.然而,基于两个或更多预训练任务,随着 AMR 文本生成性能的进一
步提高,MTL 微调的优势逐渐变得不明显;
由于 AMR3.0 较 AMR2.0 有更多的训练语料和测试数据,基准系统在 AMR3.0 上的性能明显高于
AMR2.0.但是,随着预训练模型的使用和性能的不断提升,AMR3.0 上的性能优势逐渐变得不明显.
4.5 与相关工作的比较
目前,AMR 文本分析的相关工作仍然聚焦于设计更优的图到序列(Graph2Seq)模型.作为最新工作的代表,
Song 等人 [26] 在 Zhu 等人 [10] 的图模型的基础上,进一步提出了从目标端构造线性化 AMR,在 AMR2.0 上取得了
34.13 的性能,远高于本文基准系统的性能.
表 4 比较了本文工作与相关工作的性能.其中,Reconstructor 的性能是指 Song 等人 [26] 的 Loss 2:
Reconstructing Linearized 方法.我们使用 Song 等人 [26] 的开源代码,首先使用本文 0.39M 自动标注语料进行预训