Page 132 - 《软件学报》2020年第12期
P. 132
3798 Journal of Software 软件学报 Vol.31, No.12, December 2020
[1]
神经机器翻译是 Sutskever 等人 在 2014 年提出的一种机器翻译方法,目前主流的神经机器翻译模型都采
用编码器-解码器的架构.首先,利用双语平行语料分别生成源语言与目标语言的词表,根据双语词表生成双语
数据的向量化表示.通过编码器将代表源语言的向量编码成隐藏向量表示,再利用解码器将该隐藏向量信息解
码成目标语言,编码器和解码器之间一般通过注意力机制(attention mechanism)连接,通过不断训练神经网络从
而得到源语言映射到目标语言的翻译模型.
目前,神经机器翻译主要有基于循环神经网络(recurrent neural network,简称 RNN)的神经机器翻译模型 [2−5]
与基于卷积神经网络(convolutional neural network,简称 CNN)的神经机器翻译模型 [6−11] .在双语数据资源丰富
的条件下,通过以上方法训练所得到的神经机器翻译模型均能获得很好的效果.但是针对汉语-越南语这类双语
数据较少的资源稀缺型语言来说,翻译效果并不理想.为解决以上问题,本文提出融合源语言句法解析树的神经
机器翻译方法.该方法首先对源语言进行句法解析,得到源语言的句法解析树;然后利用深度优先遍历,获得源
语言句子中每个单词对应的句法标签序列;在神经网络的编码器端,再将以上得到的标签序列与源语言词嵌入
向量及位置嵌入向量拼接;最后,通过全连接网络将拼接后的向量转化为固定长度的向量,作为训练神经网络的
输入.考虑到句法解析树所具有的层次化结构特征,在模型的选择上,我们采用多层卷积神经网络作为编码器,
这样更容易使模型学习获得源语言句法树的注意力信息.该方法有利于捕捉编码过程中自然语言与语法的依
赖关系.实验结果表明:相比基准系统,本文所提方法能有效提高机器翻译模型的质量.
1 相关工作
近年来,国内外研究学者针对资源稀缺的汉语-越南语机器翻译方法开展了许多研究,并取得了一定进展.
在汉-越双语平行语料获取方面,Trinh 等人 [12] 研究通过汉-越双语网站收集双语文本的方法,采用该方法,可以从
双语网站中获得大量的汉-越可比语料,并提供了 JSOUP 开源库.我们可以利用得到的汉-越可比语料抽取汉-越
平行语料,为汉-越机器翻译研究工作提供基础.Tran 等人 [13] 对汉-越双语分词方法进行了研究,基于命名实体、
共享词汇、词级别对齐结果和字符级别对齐这 4 个因素进行汉语和越南语的分词,以加强汉语和越南语词语之
间一对一的对齐,并限制了未登录词的数量,提升了汉-越机器翻译的性能.Huu 等人 [14] 提出了融合发音特征的
汉-越统计机器翻译方法,借助汉语与越南语拼音的相似性,将双语数据转化成声母、韵母、声调的表示形式,以
此粒度训练翻译模型,并对解码结果进行还原,从而使译文获得更好的效果.Phuoc 等人 [15] 通过分析字符级翻译
和词级翻译的优点,在词级别的翻译中使用统计与规则的方法,缓解了汉越机器翻译中数据稀疏的问题.针对汉
语-越南语机器翻译中未登录词的翻译问题,Tran 等人 [16] 提出了基于汉语和越南语语义关系的命名实体的翻译
方法.针对越南语修饰语后置的特点,He 等人 [17] 提出一种融合词根位置特征的汉-越机器翻译方法.根据定语位
置、状语位置和修饰语排序信息定义排序块,然后与基于短语的统计机器翻译模型融合,使用排序块对模型解
码结果进行重排序,从而得到越南语语法结构的译文.
以上工作均能够提升汉-越机器翻译的性能,但由于越南语具有资源稀缺的特点,在汉-越机器翻译中效果
提升仍然十分有限.考虑到汉语与越南语之间存在语法差异,本文从句法知识的利用角度研究汉-越机器翻译方
法.在句法知识的应用方面,Wu 等人 [18] 提出了将目标语言句法知识融入神经机器翻译模型的方法,使用两个
RNN 网络分别进行词语生成模型和句法结构模型的构建,通过依存上下文指导译文的生成.Chen 等人 [19] 使用
LSTM 网络对源语言的输入序列和句法树进行双向编码,使源语言句法信息融入编码过程,有效提高了模型的
性能.Zhang 等人 [20] 将源语言的依存句法信息编码,然后使编码信息与源语言的词嵌入融合,并送入双向 RNN 编
码,使模型能够有效学习到源语言与目标语言的词对齐关系.Li 等人 [21] 将句法树转化为句法标签序列,编码过程
中,使用两个 RNN 网络对输入序列和句法标签序列同时编码,使源语言句法信息融入机器翻译模型,显著提高
了翻译效果.相比以上方法,本文编码器使用卷积神经网络,将每个单词对应的句法标签向量与词向量相加作为
编码器输入,以此提高模型性能.在汉-越机器翻译中,由于汉语和越南语的句法结构存在差异性,即汉语和越南
语主语、谓语、宾语的顺序不同,使用依存句法树并不能充分地表示出语法特征.相比依存句法树,短语句法树
能够表征出更深层次的词法句法信息,句法解析树结构如图 1 所示.为提高汉-越机器翻译的性能,本文提出了融