Page 72 - 《软件学报》2021年第10期
P. 72
3044 Journal of Software 软件学报 Vol.32, No.10, October 2021
练,然后再使用 AMR2.0 语料进行微调后获取性能.Mager 等人 [33] 和 Harkous 等人 [34] 分别使用了大规模预训练
模型 GPT-2 [12] 和 RoBERTa [45] .
Table 4 Performance comparison of our approach and related studies
表 4 本文方法与相关工作的比较
额外资源 BLEU Meteor chrF++ BERTScore #参数
Our 0.39M 40.30 40.66 68.82 95.11 54M
Reconstructor [26] 0.39M 38.27 38.47 66.08 94.20 62M
Mager 等人 [33] GPT-2 33.02 37.68 63.89 762M+
Harkous 等人 [34] RoBERTa 35.6 37.3 355M+
从表中可以看出:
在仅使用 AMR2.0 人工标注数据的情况下,基于图结构的 Reconstructor 方法虽然较本文基准系统取得
了更好的性能,然而随着大规模自动标注语料的使用,本文基于多任务预训练的方法较 Reconstructor
方法提升 2.03 个 BLEU 值,可见复杂图模型在大规模语料情况下的优势变得不明显.同时,相比于本文
的序列到序列基准模型,复杂图模型可能对自动标注语料的质量有着更高的要求;
相比于 Mager 等人 [33] 和 Harkous 等人 [34] 的方法,虽然本文预训练模型的数据规模远低于 GPT-2 和
RoBERTa 所使用的预训练数据,但本文较两者分别提高了 7.28 和 4.7 个 BLEU 值.这说明,针对 AMR
文本生成任务本身,制定合适的预训练任务是有必要的;
在模型参数方面,本文使用的词表大小虽然是 Reconstructor 词表的两倍,但是由于 Reconstructor 方法
本身较为复杂,本文方法的模型参数要低于后者约 8M.此外,本文方法的模型参数要远低于基于大规
模预训练模型的 Mager 等人 [33] 和 Harkous 等人 [34] 的方法.
5 分析与讨论
本节以 AMR2.0 为例,从多方面进一步分析预训练对 AMR 文本生成性能的影响.其中,A2T 预训练任务使
用 Vanilla 微调方法,而其他预训练任务均使用 MTL 微调方法.
5.1 预训练数据集大小对AMR文本分析性能的影响
从 0.39M 的预训练数据集中随机抽取 20%、40%、60%和 80%作为预训练模型的数据集,然后再在预训练
模型的基础上,使用微调方法训练 AMR 文本生成模型.图 4 给出了预训练数据集大小对 AMR 文本分析性能影
响的折线图.
Fig.4 Learning curve over the number of instances in pre-training datasets
图 4 预训练数据集大小对 AMR 文本分析性能的影响折线图