Page 132 - 《软件学报》2020年第12期
P. 132

3798                                Journal of Software  软件学报 Vol.31, No.12, December 2020

                                      [1]
             神经机器翻译是 Sutskever 等人 在 2014 年提出的一种机器翻译方法,目前主流的神经机器翻译模型都采
         用编码器-解码器的架构.首先,利用双语平行语料分别生成源语言与目标语言的词表,根据双语词表生成双语
         数据的向量化表示.通过编码器将代表源语言的向量编码成隐藏向量表示,再利用解码器将该隐藏向量信息解
         码成目标语言,编码器和解码器之间一般通过注意力机制(attention mechanism)连接,通过不断训练神经网络从
         而得到源语言映射到目标语言的翻译模型.
             目前,神经机器翻译主要有基于循环神经网络(recurrent neural network,简称 RNN)的神经机器翻译模型                   [2−5]
         与基于卷积神经网络(convolutional neural  network,简称 CNN)的神经机器翻译模型           [6−11] .在双语数据资源丰富
         的条件下,通过以上方法训练所得到的神经机器翻译模型均能获得很好的效果.但是针对汉语-越南语这类双语
         数据较少的资源稀缺型语言来说,翻译效果并不理想.为解决以上问题,本文提出融合源语言句法解析树的神经
         机器翻译方法.该方法首先对源语言进行句法解析,得到源语言的句法解析树;然后利用深度优先遍历,获得源
         语言句子中每个单词对应的句法标签序列;在神经网络的编码器端,再将以上得到的标签序列与源语言词嵌入
         向量及位置嵌入向量拼接;最后,通过全连接网络将拼接后的向量转化为固定长度的向量,作为训练神经网络的
         输入.考虑到句法解析树所具有的层次化结构特征,在模型的选择上,我们采用多层卷积神经网络作为编码器,
         这样更容易使模型学习获得源语言句法树的注意力信息.该方法有利于捕捉编码过程中自然语言与语法的依
         赖关系.实验结果表明:相比基准系统,本文所提方法能有效提高机器翻译模型的质量.
         1    相关工作

             近年来,国内外研究学者针对资源稀缺的汉语-越南语机器翻译方法开展了许多研究,并取得了一定进展.
         在汉-越双语平行语料获取方面,Trinh 等人           [12] 研究通过汉-越双语网站收集双语文本的方法,采用该方法,可以从
         双语网站中获得大量的汉-越可比语料,并提供了 JSOUP 开源库.我们可以利用得到的汉-越可比语料抽取汉-越
         平行语料,为汉-越机器翻译研究工作提供基础.Tran 等人                [13] 对汉-越双语分词方法进行了研究,基于命名实体、
         共享词汇、词级别对齐结果和字符级别对齐这 4 个因素进行汉语和越南语的分词,以加强汉语和越南语词语之
         间一对一的对齐,并限制了未登录词的数量,提升了汉-越机器翻译的性能.Huu 等人                           [14] 提出了融合发音特征的
         汉-越统计机器翻译方法,借助汉语与越南语拼音的相似性,将双语数据转化成声母、韵母、声调的表示形式,以
         此粒度训练翻译模型,并对解码结果进行还原,从而使译文获得更好的效果.Phuoc 等人                           [15] 通过分析字符级翻译
         和词级翻译的优点,在词级别的翻译中使用统计与规则的方法,缓解了汉越机器翻译中数据稀疏的问题.针对汉
         语-越南语机器翻译中未登录词的翻译问题,Tran 等人                [16] 提出了基于汉语和越南语语义关系的命名实体的翻译
         方法.针对越南语修饰语后置的特点,He 等人              [17] 提出一种融合词根位置特征的汉-越机器翻译方法.根据定语位
         置、状语位置和修饰语排序信息定义排序块,然后与基于短语的统计机器翻译模型融合,使用排序块对模型解
         码结果进行重排序,从而得到越南语语法结构的译文.
             以上工作均能够提升汉-越机器翻译的性能,但由于越南语具有资源稀缺的特点,在汉-越机器翻译中效果
         提升仍然十分有限.考虑到汉语与越南语之间存在语法差异,本文从句法知识的利用角度研究汉-越机器翻译方
         法.在句法知识的应用方面,Wu 等人            [18] 提出了将目标语言句法知识融入神经机器翻译模型的方法,使用两个
         RNN 网络分别进行词语生成模型和句法结构模型的构建,通过依存上下文指导译文的生成.Chen 等人                                 [19] 使用
         LSTM 网络对源语言的输入序列和句法树进行双向编码,使源语言句法信息融入编码过程,有效提高了模型的
         性能.Zhang 等人  [20] 将源语言的依存句法信息编码,然后使编码信息与源语言的词嵌入融合,并送入双向 RNN 编
         码,使模型能够有效学习到源语言与目标语言的词对齐关系.Li 等人                     [21] 将句法树转化为句法标签序列,编码过程
         中,使用两个 RNN 网络对输入序列和句法标签序列同时编码,使源语言句法信息融入机器翻译模型,显著提高
         了翻译效果.相比以上方法,本文编码器使用卷积神经网络,将每个单词对应的句法标签向量与词向量相加作为
         编码器输入,以此提高模型性能.在汉-越机器翻译中,由于汉语和越南语的句法结构存在差异性,即汉语和越南
         语主语、谓语、宾语的顺序不同,使用依存句法树并不能充分地表示出语法特征.相比依存句法树,短语句法树
         能够表征出更深层次的词法句法信息,句法解析树结构如图 1 所示.为提高汉-越机器翻译的性能,本文提出了融
   127   128   129   130   131   132   133   134   135   136   137