Page 66 - 《软件学报》2021年第10期
P. 66

3038                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                    (1)  针对 AMR 文本生成任务,提出了 3 种相关的预训练任务及其联合预训练任务,并分析比较了各种预
                        训练任务在不同微调方式下的性能;
                    (2)  基于预训练模型,分析比较了两种不同微调方式的性能;
                    (3)  基于 0.39M 的自动标注句子,本文在 AMR2.0 和 AMR3.0 上均取得目前的最优性能.
                    本文第 1 节对相关工作进行描述.第 2 节描述基于序列到序列的 AMR 文本生成.第 3 节给出本文提出的基
                 于多任务预训练的 AMR 文本生成.第 4 节设计实验,并通过实验分析表明本文方法的有效性.第 5 节从多方面
                 进一步分析预训练对 AMR 文本分析性能的影响.最后总结全文,并对未来值得关注的研究方向进行初步探讨.
                 1    相关工作

                    本文的研究工作主要涉及 AMR 文本生成和模型预训练两个方面,因此,本节将从这两个角度来总结相关
                 研究工作.
                 1.1   AMR文本生成
                    AMR 文本生成是一个典型的图到序列的任务,早期的研究中大多采用基于规则的方法来解决这个任务.
                           [6]
                 Flanigan 等人 使用两阶段方法,根据重入节点(reentrancy,即具有多个父亲节点的概念节点)将 AMR 图拆分成
                                                                            [7]
                 多个树结构后,再使用基于规则的方法将树结构翻译为文本序列.Song 等人 使用启发式提取算法来学习图到
                 字符串(graph-to-string)规则.
                    目前,更多的研究将 AMR 文本生成任务视为机器翻译任务,并通过深度优先遍历来获取线性化的 AMR 图.
                                    [8]
                                                 [9]
                 比如,Pourdamghani 等人 和 Ferreira 等人 使用基于短语的机器翻译模型将线性化 AMR 图翻译为自然语言文
                 本,Konstas 等人 [15] 利用序列到序列的神经机器翻译模型将线性化 AMR 图转换为自然语言文本,Cao 和 Clark                    [16]
                 则使用目标端的语法信息提高了基于序列到序列方法的 AMR 文本生成性能.
                    在某种程度上,AMR 图线性化得到的序列不可避免地会丢失原图中的结构化信息.为了减少线性化过程带
                 来的信息损失,目前,越来越多的研究提出了基于图到序列(Graph2Seq)的神经网络模型.例如,Marcheggiani 和
                 Perez-Beltrachini [17] 首次利用图神经网络(graph neural networks,简称 GNNs)来显式地编码图结构信息,并显著
                 提高了文本生成性能.之后,研究者不断提出多种变体的图编码器模型,如基于图的 LSTM                            [18] 、门控图神经网络
                 (gated graph neural  network,简称 GGNN) [19] 和图卷积神经网络(graph convolutional network,简称 GCN) [20] .Guo
                 等人 [21] 使用了密集连通(dense connection)网络,允许不同层之间的信息进行交换.此外,为了更好地对 AMR 图
                 进行编码,Ribeiro 等人  [22] 使用自上而下和自下而上的双向图表示方法;Zhu 等人              [10] 以及 Cai 和 Lam [23] 提出了基
                 于图结构驱动的 Transformer   [24] 模型,对 AMR 图结构信息进行编码;Zhao 等人        [25] 根据 AMR 中的概念与边关系,
                 分别从概念图与关系图的角度对图结构进行编码;Song 等人                  [26] 使用基于图结构的自编码,同时将编码后的图结
                 构信息还原为序列化 AMR 与三元组关系,以减少对原 AMR 图结构的损失.
                 1.2   模型预训练
                    目前,在自然语言处理任务的应用中,预训练模型在各种下游任务中的性能表现优越,使用预训练模型已经
                 成为一种主流的做法.本文将预训练模型大致分成 3 类:第 1 类是学习静态词嵌入的预训练模型,如
                 word2vec [27] 、GloVe [28] 等;第 2 类是捕获上下文语境的预训练模型,如 CoVe     [29] 、ELMo [11] 、GPT-2 [12] 和 BERT [13]
                 等;第 3 类是基于序列到序列模型的预训练模型,如 PoDA               [30] 、MASS [31] 、BART [32] 等.
                    由于 AMR 需要对图结构进行编码,同时,AMR 中包含许多特殊符号,使得基于自然语言文本的预训练模型
                 无法直接应用到 AMR 文本生成中.目前,基于预训练 AMR 文本生成的研究较少.因此,如何针对 AMR 文本生成
                 任务进行模型预训练,是一个亟待研究的课题.Mager 等人                [33] 和 Harkous 等人 [34] 首次在 AMR 文本生成任务中引
                 入预训练模型,显著提升了文本生成的性能.
                    本文将 AMR 文本生成任务看作序列到序列任务,根据 AMR 文本生成任务的特点,提出了多种针对 AMR
                 文本生成的预训练任务,并使用目前效果显著的 Transformer 作为预训练模型.与 Mager 等人                     [33] 和 Harkous 等
   61   62   63   64   65   66   67   68   69   70   71