Page 66 - 《软件学报》2021年第10期
P. 66
3038 Journal of Software 软件学报 Vol.32, No.10, October 2021
(1) 针对 AMR 文本生成任务,提出了 3 种相关的预训练任务及其联合预训练任务,并分析比较了各种预
训练任务在不同微调方式下的性能;
(2) 基于预训练模型,分析比较了两种不同微调方式的性能;
(3) 基于 0.39M 的自动标注句子,本文在 AMR2.0 和 AMR3.0 上均取得目前的最优性能.
本文第 1 节对相关工作进行描述.第 2 节描述基于序列到序列的 AMR 文本生成.第 3 节给出本文提出的基
于多任务预训练的 AMR 文本生成.第 4 节设计实验,并通过实验分析表明本文方法的有效性.第 5 节从多方面
进一步分析预训练对 AMR 文本分析性能的影响.最后总结全文,并对未来值得关注的研究方向进行初步探讨.
1 相关工作
本文的研究工作主要涉及 AMR 文本生成和模型预训练两个方面,因此,本节将从这两个角度来总结相关
研究工作.
1.1 AMR文本生成
AMR 文本生成是一个典型的图到序列的任务,早期的研究中大多采用基于规则的方法来解决这个任务.
[6]
Flanigan 等人 使用两阶段方法,根据重入节点(reentrancy,即具有多个父亲节点的概念节点)将 AMR 图拆分成
[7]
多个树结构后,再使用基于规则的方法将树结构翻译为文本序列.Song 等人 使用启发式提取算法来学习图到
字符串(graph-to-string)规则.
目前,更多的研究将 AMR 文本生成任务视为机器翻译任务,并通过深度优先遍历来获取线性化的 AMR 图.
[8]
[9]
比如,Pourdamghani 等人 和 Ferreira 等人 使用基于短语的机器翻译模型将线性化 AMR 图翻译为自然语言文
本,Konstas 等人 [15] 利用序列到序列的神经机器翻译模型将线性化 AMR 图转换为自然语言文本,Cao 和 Clark [16]
则使用目标端的语法信息提高了基于序列到序列方法的 AMR 文本生成性能.
在某种程度上,AMR 图线性化得到的序列不可避免地会丢失原图中的结构化信息.为了减少线性化过程带
来的信息损失,目前,越来越多的研究提出了基于图到序列(Graph2Seq)的神经网络模型.例如,Marcheggiani 和
Perez-Beltrachini [17] 首次利用图神经网络(graph neural networks,简称 GNNs)来显式地编码图结构信息,并显著
提高了文本生成性能.之后,研究者不断提出多种变体的图编码器模型,如基于图的 LSTM [18] 、门控图神经网络
(gated graph neural network,简称 GGNN) [19] 和图卷积神经网络(graph convolutional network,简称 GCN) [20] .Guo
等人 [21] 使用了密集连通(dense connection)网络,允许不同层之间的信息进行交换.此外,为了更好地对 AMR 图
进行编码,Ribeiro 等人 [22] 使用自上而下和自下而上的双向图表示方法;Zhu 等人 [10] 以及 Cai 和 Lam [23] 提出了基
于图结构驱动的 Transformer [24] 模型,对 AMR 图结构信息进行编码;Zhao 等人 [25] 根据 AMR 中的概念与边关系,
分别从概念图与关系图的角度对图结构进行编码;Song 等人 [26] 使用基于图结构的自编码,同时将编码后的图结
构信息还原为序列化 AMR 与三元组关系,以减少对原 AMR 图结构的损失.
1.2 模型预训练
目前,在自然语言处理任务的应用中,预训练模型在各种下游任务中的性能表现优越,使用预训练模型已经
成为一种主流的做法.本文将预训练模型大致分成 3 类:第 1 类是学习静态词嵌入的预训练模型,如
word2vec [27] 、GloVe [28] 等;第 2 类是捕获上下文语境的预训练模型,如 CoVe [29] 、ELMo [11] 、GPT-2 [12] 和 BERT [13]
等;第 3 类是基于序列到序列模型的预训练模型,如 PoDA [30] 、MASS [31] 、BART [32] 等.
由于 AMR 需要对图结构进行编码,同时,AMR 中包含许多特殊符号,使得基于自然语言文本的预训练模型
无法直接应用到 AMR 文本生成中.目前,基于预训练 AMR 文本生成的研究较少.因此,如何针对 AMR 文本生成
任务进行模型预训练,是一个亟待研究的课题.Mager 等人 [33] 和 Harkous 等人 [34] 首次在 AMR 文本生成任务中引
入预训练模型,显著提升了文本生成的性能.
本文将 AMR 文本生成任务看作序列到序列任务,根据 AMR 文本生成任务的特点,提出了多种针对 AMR
文本生成的预训练任务,并使用目前效果显著的 Transformer 作为预训练模型.与 Mager 等人 [33] 和 Harkous 等