Page 139 - 《软件学报》2020年第12期
P. 139
王振晗 等:融合句法解析树的汉-越卷积神经机器翻译 3805
Table 3 Experimental analysis table of different convolution kernel sizes
表 3 不同卷积核大小下模型的效果
卷积核大小 汉-越 越-汉
3 22.82 22.86
5 22.36 21.65
7 21.98 20.43
(3) 不同编码器网络层数
为研究不同层数的卷积网络对模型性能的影响,下面将卷积核大小固定为 5,分别选取卷积网络层数大小
为 5,9,15 进行实验,结果见表 4.
Table 4 Experimental analysis table of different network depths
表 4 不同网络深度下的模型效果
卷积网络层数 汉-越 越-汉
5 21.19 20.86
9 21.52 21.12
15 22.36 21.65
从以上结果可以看出:编码器网络的层数越多,所得到的模型效果越好.在编码器中采用更多层的卷积神经
网络,能够更加充分地获得源语言的语义表征,提高模型的性能.在模型训练时,将编码器层数设置为 15 层,卷积
核大小设为 3,能够得出较优的模型训练结果.
3.3 汉语-越南语译文分析
下面以汉语-越南语翻译为例分析融入句法解析树对译文的影响,将汉语“中国人民正在积极建设社会主
义”以及“大家热泪盈眶,满怀高兴.”作为源语言,使用以上的 CNN+P+S 模型翻译成越南语.翻译结果见表 5.
Table 5 Comparison of example experiments in different groups
表 5 各组实例实验对比
中文 模型 越南语
参考译文 Nhân dân(人民) Trung Quốc(中国) đang(正在) hang(积极) hái xây dựng(建设) chủ nghĩa(主义) xã hội(社会)
RNNsearchs Trung Quốc(中国) Người dân(人民) đang(正在) tích(积极) cực xây dựng(建设) xã hội(社会) chủ nghĩa(主义)
中国
人民 Transformer Nhân dân(人民) Trung Quốc(中国) đang(正在) căng(积极) cực xây dựng(建设) chủ nghĩa(主义) xã hội(社会)
Base
正在 Transformer
积极 Big Nhân dân(人民) Trung Quốc(中国) đang(正在) tích(积极) cực xây dựng(建设) chủ nghĩa(主义) xã hội(社会)
建设 CNN Người dân(人民) Trung Quốc(中国) đang(正在) căng(积极) cực xâydựng(建设) xã hội(社会) chủ nghĩa(主义)
社会 CNN+P Người dân(人民) Trung Quốc(中国) đang(正在) tích(积极) hái xây dựng(建设) xã hội(社会) chủ nghĩa(主义)
主义.
CNN+S Nhân dân(人民) Trung Quốc(中国) đang(正在) tích(积极) cực xây dựng(建设) chủ nghĩa(主义) xã hội(社会)
CNN+P+S Nhân dân(人民) Trung Quốc(中国) đang(正在) hăng(积极) hái xây dựng(建设) chủ nghĩa(主义) xã hội(社会)
对比以上译文可以看出,基于 CNN 模型输出的译文质量高于 RNNsearchs 模型.主要原因是:通过
RNNsearchs 模型输出的译文句法结构与目标语言句法结构不符,如“中国人民”“社会主义”的译文为“Trung
Quốc(中国) Người dân(人民)”与“xã hội(社会) chủ nghĩa(主义)”,其都按照汉语中名词作定语的句法结构进行翻
译,而非根据越南语的句法结构.对于 CNN 模型的译文,同样存在译文句法结构与目标语言句法结构不相符的
问题,如“热泪盈眶”的译文为“đều đầy(满是) nước mắt(泪水)”,译文中未对状语部分进行翻译.在融入位置、句法
解析树的信息后,能够对译文的顺序进行调整.因此可以看出:融入句法解析树,能够使神经机器翻译模型学习
获得语言的语言信息,对生成译文的词序和句法结构具有约束作用,缓解汉-越神经机器翻译中源语言与目标语
言句法结构不相符的问题.
4 总 结
本文针对汉-越神经机器翻译面临的训练语料不足问题,提出了融合汉、越句法解析树的神经机器翻译方