Page 108 - 《软件学报》2020年第12期
P. 108

3774                                Journal of Software  软件学报 Vol.31, No.12, December 2020

         法,进行实验并分析结果.第 6 节对全文内容进行总结.

         1    相关工作
             Dagan 等人 [13] 提出:自然语言中同一个浅层语义可以有多种不同的表达形式,这些表达形式之间存在一定
         的推理关系,即文本蕴含关系,如果找出不同表达之间的蕴含关系,那么就能够有效提升信息检索、文本摘要、
         机器翻译等应用的系统稳定性.经过 10 多年的研究发展,文本蕴含已成为了自然语言处理中一项基础且重要的
         任务,在数据制作、实验方法等方面取得了很大进展,有力地推动了语言理解和推理的发展.
             现有的蕴含数据集仍以英文为主,早期有 RTE(recognizing textual entailment)评测        [14−16] 和 RITE(recognizing
                                                                       [7]
         inference in text)评测 [17−19] 提供的小型数据集.随着深度神经网络的发展,SNLI ,MNLI         [20] ,QNLI [21] 等由研究者
         专门为文本蕴含及其他推理任务制作的大规模数据集也被广泛应用.中文蕴含数据方面,早期有 RITE-2                                   [18] 和
         RITE-3 [19] 提供的简体中文和繁体中文的蕴含数据.除此之外,CCL2018 的中文文本蕴含评测发布了包含 11 万条
         数据的中文自然语言推理数据集 CNLI            [22] .刘焕勇利用英汉对齐翻译的方法构建了 88 万的中文蕴含数据                 [23] .以
         上数据集都提供了 2 分类标签“蕴含-非蕴含”或 3 分类标签“蕴含-中立-矛盾”,这些标签只能从整体上区分句子
         之间是蕴含还是矛盾关系,较为粗泛.想要深入研究蕴含类型以及导致蕴含的推理机制,需要对蕴含现象进行更
         为细致的分类.
             Dagan 和 Glickan [14] 从宏观角度把英语蕴含类型分成公理规则(axiom rule)、自反性(reflexivity)、单调性扩
         张(monotone extension)、限制性扩张(restrictive extension)、传递链(transitive chaining)等 5 类,这些概念较为抽
         象,在实际标注中很难操作.RITE-3        [19] 任务针对中文数据提出了 19 类蕴含现象和 9 类矛盾现象,任函                [24] 提出了
         20 个面向汉语文本推理的语言现象标注类别,包含了同义词(近义词)、上下位词、时态、句法等.为建立专门的
         文本蕴含推理数据集,Bentivogli 等人       [25] 分析了 RTE-5 数据集中包含的语言学现象,提出了词汇、词汇-句法、
         句法、话语、推理等蕴含类型.其中,对推理现象的细粒度分类具有很好的参考意义,我们将有关数量、空间的
         推理知识和常识一起纳入本文的推理类型框架之下.在这些类型的基础上,结合实际标注情况,本文总结出了一
         套适用于中文蕴含的类型体系.
             深度神经网络模型在文本蕴含关系识别上表现出很大的优势,是目前识别准确率最高的方法,具有极强的
                                   [7]
         稳定性及可移植性.Bowman 等人 首次将循环神经网络(RNN)和 LSTM 神经网络用于文本蕴含识别,取得了不
         错的成绩.随后,Rocktäschel 等人    [26−28] 用两个 LSTM 模型分别对 P 和 H 建模,同时引入 Attention 机制,进一步提
         升了模型性能,较好地关注到了 P_H 的语义对应部分.Wang 等人                  [29] 在 Rocktäschel 等人的工作基础上提出了
         Mlstm 模型,重点关注 P_H 中语义匹配部分.Hickl 和 de Marneffe 等人       [30] 运用“对齐-过滤器”方法将命名实体和
         别的参数信息合并到表面文本中,他们使用人工标注数据来训练最大熵分类器,以确定表层语块的蕴含现象.
         Tsuchida [31] 将基于词汇匹配的蕴含得分与基于深度学习的过滤机制结合起来,从词、短语和谓词获得蕴含信息.
         Camburu 等人 [32] 在 SNLI 数据中增加了对蕴含关系的人工解释,并将这些人工解释加入到模型训练过程中,改进
         了通用句子的表示方法,探索了模型的解释性问题.刘茂福等人                      [33] 将文本间的蕴含关系转化为事件图之间的蕴
         含关系,联合多种特征,有效识别中文文本蕴含关系,强化了文本蕴含系统深层语义分析与推理能力.谭咏梅等
         人 [34] 使用基于卷积神经网络(CNN)与双向 LSTM(BiLSTM)的中文文本蕴含识别方法,避免了传统机器学习需
         要人工筛选大量特征以及使用多种自然语言处理工具造成的错误累计问题.金天华等人                                [35] 在人工标注中文蕴
         含句对的基础上,将 Wang 的工作迁移到中文文本蕴含关系识别,进行了中文句法蕴含的语块单边界识别任务.
         2    中文文本蕴含类型

             通过分析文本蕴含数据的语言现象,可以发现隐藏在蕴含数据中的多种推理关系,在此基础上归纳出蕴含
         类型有助于深入研究蕴含的推理形式,更好地挖掘真实语料中的蕴含现象,并为蕴含生成提供重要的理论支持.
         我们参考前人的蕴含类型研究           [14,24,25] ,结合实际语料,将中文文本蕴含分为词汇、句法结构、推理等 3 大类,其
         下还有 7 个小类.汇总见表 1.
   103   104   105   106   107   108   109   110   111   112   113