Page 133 - 《软件学报》2020年第12期
P. 133
王振晗 等:融合句法解析树的汉-越卷积神经机器翻译 3799
合源语言句法解析树的汉-越神经机器翻译方法.
Fig.1 Structure diagram of Chinese syntactic parsing tree
图 1 汉语句法解析树结构图
2 融合源语言句法解析树的卷积神经机器翻译
在本节中,我们对汉语、越南语句法解析树的表征及融合方法进行了详细说明.由于基于 CNN 的神经机器
翻译模型与基于 RNN 的神经机器翻译模型相比模型性能更好,因此在基准模型的选择上采用了具有多层卷积
神经网络的编码器,解码器使用 LSTM 网络.在本文中,我们对神经网络结构不做修改,而是改变编码器的输入信
息,融入了源语言的句法树信息.以下将从汉越句法解析树的获取、汉越句法解析树的向量化、基于 CNN 的神
经机器翻译模型及汉越句法解析树的融合这 4 个方面,对融合汉越句法解析树的卷积神经机器翻译方法进行
说明.
2.1 汉、越句法解析树的获取
获取汉越句法解析树,是为了得到汉语、越南语句子的语法结构及句子中单词之间的依赖关系,也就是为
了得到汉语、越南语的语法信息为神经机器翻译模型训练提供支持.句法解析的准确率对神经机器翻译模型的
性能有直接影响.获取高质量的汉语、越南语句法解析树是实验的关键.
目前,汉语的句法解析工具较多,同时准确率高.其中,有代表性的开源中文句法解析工是斯坦福的句法解
析模型.本文利用斯坦福的汉语句法解析模型(ChinesePCFG) [22] 对汉语进行句法解析,得到了汉语句法解析树,
汉语句法解析结果如图 1 所示.
由于越南语的句法解析开源工具较少,在越南语句法解析树获取方面,我们采用李英等人 [23] 的越南语短语
句法解析工具对越南语进行句法解析,得到越南语句法解析树.由于句法树是在单词的粒度上实现,但是越南语
以音节为单位,使用越南语句法解析工具前,需要对越南语进行分词及词性标注.因此,首先利用实验室研发的
语言信息处理工具对越南语进行预处理,所得到的越南语分词和词性标记结果如图 2 所示.
Fig.2 Vietnamese preprocessing
图 2 越南语预处理