Page 138 - 《软件学报》2020年第12期
P. 138
3804 Journal of Software 软件学报 Vol.31, No.12, December 2020
Table 2 Experimental results of different model settings
表 2 不同模型设置的实验结果
汉-越 越-汉 英-越 越-英
RNNsearch 17.31 13.92 18.67 18.34
Transformer Base 21.13 20.68 21.43 22.21
Transformer Big 21.65 21.11 21.71 22.43
CNN 18.81 18.07 20.12 20.86
CNN+P 21.52 21.02 21.97 22.12
CNN+S 21.61 21.09 21.83 22.32
CNN+P+S 22.36 21.65 22.32 22.80
如表 2 所示,基于 CNN 的神经机器翻译模型性能优于基于 RNN 的神经机器翻译模型以及基于 Transformer
的神经机器翻译模型.实验对比表明:通过融入源语言句法解析树,可使机器翻译性能提升.具体原因分析如下.
通过以上实验可以看出:当目标语言为汉语时,译文的 BLEU 值低于源语言为汉语的翻译效果.例如,在
CNN+P+S 实验中,汉语-越南语、越南语-汉语的翻译中,汉语-越南语的翻译相比越南语-汉语翻译高出 0.71 个
BLEU 值.主要原因是:越南语由音节构成,与汉语拼音类似,每个音节又由声母、韵母及音调组成,与汉语相比构
词方法相对简单.相比在汉语中,汉字的构词非常丰富,但是在硬件资源、计算能力有限的情况下,在训练过程中
使用有限大小的词表.在资源稀缺情况下,所得到的词表表征能力十分有限,OOV 问题相对严重,导致译文的
BLEU 值较低.
基准实验中,RNNsearchs 模型效果较差.这是因为基于 RNN 的模型在训练过程中存在不足.在训练过程中,
编码器依次编码源语言句子中每个单词,产生固定长度的源语言上下文向量;然后,解码器通过这个上下文向量
还原目标语言.采用这种编码-解码方式,模型无法充分学习到源语言中某个单词与其他单词的关联关系,也就
是单词在一个句子中的上下文环境信息,导致解码器生成的单词脱离原文语境译文质量不佳.并且在基于 RNN
的模型中,未能够将源语言的句法知识融入到翻译模型中,因此译文句法结构与源语言句法结构不符,得到的翻
译译文质量较差.同时,在单 GPU 的下,模型编码器解码器的层数及隐含层单元的大小受限,也是影响模型性能
的因素.
基于 Transformer 的神经机器翻译模型性能优于 RNNsearchs,主要原因是 Transformer 模型采用多头注意
力机制(multi-head attention),同时,在编码过程中,将源语言的词嵌入向量与位置向量相加作为模型输入,使词序
信息有效融合到神经机器翻译模型的训练过程,提高了模型的性能.在此基础上,增加了网络宽度的 Transformer
Big 模型相比 Transformer Base 模型性能上获得了进一步的提升.
基准实验中,基于 CNN 的神经机器翻译模型在未融入位置及句法信息时,相比 RNNsearch 模型效果有所提
升,但是效果弱于融入位置信息或句法信息的神经机器翻译模型.原因是,基于 CNN 的编码器未能获取到源语
言中词语的位置信息、词序关系与句法信息.在融入位置信息及句法信息后,相同单词在不同位置或上下文环
境中得到不同的 embedding 表示,使编码器能够学习到更充分的语义信息,提高了模型的性能.
通过对比汉-越、英-越两组语言对的实验结果可以看出,融合句法信息在汉-越机器翻译上的作用更加明
显.主要原因是:相比英语-越南语,汉语-越南语之间存在的语法差异较大.对于语法结构相似的语种,该方法获得
的效果并不明显.因此,融合源语言句法信息能够有效提升汉-越机器翻译的性能.
(2) 不同卷积核大小
在卷积编码器模型中,随着编码器中卷积核大小的改变及编解码器层数的变化,所训练出模型的效果也会
产生变化.因此,本文以汉语-越南语、越南语-汉语翻译为例,基于以上提出的 CNN+P+S 模型探讨了编码器层数
以及卷积核大小对模型性能的影响.
为研究不同大小的卷积核对模型性能的影响,将编码器层数固定为 15 层,分别选取卷积核大小为 3,5,7 进
行实验,结果见表 3.
从表 3 的实验结果中可以看出:当编码器网络层数不变时,卷积核大小变大,译文的 BLEU 值下降.卷积核最
小时,模型获得的性能最好.