Page 110 - 《软件学报》2020年第12期
P. 110

3776                                Journal of Software  软件学报 Vol.31, No.12, December 2020

             (5) P:人们在繁忙的人行道上打电话.                           H:人们在户外打电话.
             根据有关空间位置的背景知识,我们可以知道“在繁忙的人行道上”就是“在户外”,因此,P 和 H 之间存在位
         置信息引起的蕴含现象.
             •   数量关系(quantity)
             如果在 P_h 句子对里面有表示数量的词出现,且 h 句中的数量词反映了 p 中数量的和、差、积、商等数量
         关系,或者反映了抽象概括,例如用“们”、“一群”表示人物数量的概数.
             (6) P:3 名女子和两名男子举着弦乐器站在一个楼梯下.                  H:5 个人站在楼梯旁边.
             P 中的“3 名女子和两名男子”是有明确表述数量的词组,经过简单计算,可以得到一共有 5 个人的信息,与 H
         中的“5 个人”一致,因此,P 和 H 之间存在数量关系引起的蕴含现象.
             •   常识(common-sense)
             常识蕴含中的推理形式复杂多样,现有研究难以清晰定义常识的概念.我们将所有需要复杂推理的蕴含句
         对都归为常识蕴含.
             (7) P:一个年轻人坐在椅子上脸上盖着帽子.                        H:一个年轻人坐在椅子上休息.
             根据常识信息,我们通常会认为“坐在椅子上,脸上盖着帽子”是“休息”的一种表现,所以从“脸上盖着帽子”
         推出“休息”,这是由常识引起的蕴含现象.
         3    数据集构建及分析


         3.1   数据标注
             我们从中文自然语言推理语料库 CNLI 选取部分语义完整、结构清晰的蕴含语料,借助于开源语料标注平
         台 Brat(brat rapid annotation tool)对中文蕴含语料进行人工标注,形成一个规模为 12k 的中文蕴含语块类型数据
         集.数据集标注内容主要分为蕴含语块和蕴含关系类型两个部分.
             •   蕴含语块指的是在蕴含句对 P 和 H 中具有蕴含关系的语块,需要分别在 P 和 H 中标注.蕴含语块可以
                是单个的词、多词短语、句子框架,甚至是在复句中的某一小句;
             •   蕴含关系类型是两个语块之间的关系类型,由蕴含语块决定.关系类型的标注根据上文建立的中文蕴
                含类型体系进行标注.
             标注员分别在蕴含句对 P 和 H 中标注出语块实体,然后选择这两个语块之间符合的蕴含关系,标注平台会
         实时保存标注信息.具体的标注示例如图 1 所示.




                                     Fig.1    Annotation example by using Brat
                                             图 1   Brat 标注示例

             数据标注遵循以下原则.
             (1)  语块成对出现,P 中的语块和 H 中的语块对应.例如,“两个穿着黑夹克的男人”和“两名男子”必须成对
                 出现.省略类蕴含无法在 H 中找到与 P 对应的语块,用“Null”标记;
             (2)  语块结构不固定,但是意义完整.语块的结构可以是词、短语、句中某些成分,但是其表达的意义必须
                 是完整的.例如:“乘坐地铁”是动宾结构短语,“在地铁上”是介宾结构短语,两者结构并不相同,但是都
                 具有“在地铁上”的意义,且这个意义是完整的,两者具有蕴含关系;
             (3)  复合蕴含需要标出多组蕴含语块及对应的蕴含关系.复合蕴含指的是在同一组蕴含句对中存在多种
                 蕴含现象,包括多组蕴含语块对应同一种蕴含关系以及多组蕴含语块对应多种蕴含关系.标注员应该
                 尽可能地标注出句对中的蕴含现象.
             本次数据标注员均具有专业的语言学背景,可以较好地区分蕴含句对中的语言学现象.为了控制语料标注
   105   106   107   108   109   110   111   112   113   114   115