Page 107 - 《软件学报》2020年第12期
P. 107
于东 等:中文文本蕴含类型及语块识别方法研究 3773
在这个过程中,文本蕴含识别(recognizing textual entailment,简称 RTE)是极为基础和重要的环节.文本蕴含
[1]
是一对文本之间的有向推理关系 ,其中,蕴含前件记作 P(premise),蕴含后件记作 H(hypothesis).作为文本蕴含
的基本任务,文本蕴含识别以语义理解为基础,判断两个句子之间语义关系.如果两个句子具有蕴含关系,那么
这两个句子被称为蕴含句对.例如:
(1) P:一名男子与一名男孩说话. H:一名成年人与一名儿童说话.
例(1)中,“男子”与“成年人”是上下位词,“男孩”和“儿童”也是上下位词,所以 P 和 H 是由上下位词导致的蕴
含现象.
(2) P:一位欣赏蝴蝶的年轻女孩. H:一个女孩很欣赏蝴蝶.
例(2)中,P 是由定中短语构成的陈述句,H 是将定中短语转变成主谓结构的陈述句,两句话的语义内容一致,
但是句法结构不同,所以 P 和 H 是由句法变换导致的蕴含现象.
(3) P:一对年轻夫妇刚刚订婚. H:一对夫妇刚刚订婚.
例(3)中,P 中主语“夫妇”的定语修饰语“年轻”在 H 中被省略,所以 P 和 H 是由省略变换引起的蕴含现象.
从以上 3 组例句看到,蕴含关系取决于句子中标有下划线的语言成分.当两个句子中对应的语言成分具有
蕴含关系,那么这两个句子就是蕴含的,反之则不然.这些语言成分被称为“语块”,这一概念最早来自美国心理学
[4]
家、认知学家 Miller,她于 1956 年首次提出了记忆中“组块”,后被语言学家移植到语言领域 [2,3] .Wray 认为:语块
是一个存储在大脑中的整体预制块,在使用时从记忆中被整块调用,而不是按照语法规则产出或分析的连续或
非连续的由词汇构成的语串.在文本蕴含研究中,我们把导致蕴含关系的语块称为蕴含语块.蕴含语块介于词和
句子之间,具有独立的语义和语用形式,蕴含语块之间的关系类型决定了蕴含句对之间的关系类型.
但是蕴含语块研究尚未得到广泛关注,很少有研究者尝试用现有模型发现蕴含语块,也很少有研究根据语
块解释具体的蕴含类型和其中包含的推理机制.而语言学对于蕴含的研究集中于概念定义和逻辑命题证明 [5,6] ,
因此需要从大规模蕴含数据中标注出蕴含语块,分析其中的语言学特征,归纳形成一套较为系统的中文蕴含类
型体系.该体系有利于直观描述蕴含的本质特征,加强人们对蕴含现象的理解,提升模型对文本蕴含识别的解释
力.本文人工标注了 12 000 个中文蕴含句对,从词汇、句法、常识推理等 3 个角度归纳中文文本蕴含类型,并从
3 大类延伸出 7 个具体小类.
我们将文本蕴含识别任务细化为蕴含类型识别和蕴含语块-类型识别两个子任务.蕴含类型识别可以转化
为分类任务.目前的蕴含类型识别受益于大规模数据集和深度神经网络模型,通常使用带有注意力机制的
LSTM(long short term memory)模型预测蕴含标签 [7−9] .现有针对蕴含语块识别的研究比较少,主要是用对齐的
方法找出蕴含句对中相似部分 [10] ,模型不需要理解句子的语义信息.另一方面,蕴含类型识别可以共享语块识别
任务中得到的语义知识,但不能解决多种蕴含类型同时出现在一组蕴含句对里的情况.因此,我们提出蕴含语块
-类型识别任务,它可以转化为序列标注任务,“位置-类型”为标签,标注出语块在句子中的位置信息和蕴含类型.
我们用 ESIM [11] ,BERT [12] 等模型作为基线,在标注数据上分别实现了 7 分类的蕴含类型识别任务和 17 分类的蕴
含语块边界识别任务.
本文贡献在于以下 3 点.
(1) 数据方面,归纳了 7 个中文文本蕴含的类型,经过人工标注得到 12 000 条中文蕴含语块类型数据,为中
文文本蕴含研究提供新的参考;
(2) 实验方面,将 ESIM 模型和 BERT 模型迁移到中文蕴含数据上,做了两个相关的任务,证明了带有注意
力机制的模型在中文文本蕴含上是可行的(https://github.com/blcunlp/CTECL);
(3) 任务方面,提出一个同时预测蕴含语块边界和蕴含类型的新任务,扩展了文本蕴含研究内容,促进了
蕴含研究的发展.
本文第 1 节介绍文本蕴含任务的相关工作.第 2 节介绍基于语言学特征的中文文本蕴含分类体系.第 3 节
介绍蕴含语块类型的标注情况,并对数据进行类型和结构分析.第 4 节说明使用深度学习模型进行中文文本蕴
含类型识别的算法,进行实验并分析结果.第 5 节说明使用深度学习模型进行中文文本蕴含语块-类型识别的算