Page 115 - 《软件学报》2020年第12期
P. 115

于东  等:中文文本蕴含类型及语块识别方法研究                                                          3781


             而对于都只有蕴含句对语义信息而没有蕴含语块信息的 ESIM1 和 BERT1,BERT1(51.14%)比 ESIM1
         (43.57%)高 7.57%.我们猜测:经过大规模语料的预训练后,BERT 能够学习到足够的基于上下文的表示,这在一
         些类别的分类上起到了辅助作用.
             针对准确率最高的 BERT2 系统,我们观察其在测试集上的分类报告,见表 3.数量最少(仅 70 个)的数量关系
         类型却达到了最高的 F1 值 0.82,这意味着数量关系类型相对简单,模型能够充分地学习到相关知识来区分这个
         类别.而它的准确率仅为 0.73,远远低于召回率(0.93),这表明模型会更倾向于将数据预测为数量关系这一类别,
         这有可能会导致其他类型被错误预测为数量关系类型.对于同义关系这一类型,0.58 的准确率和 0.55 的召回率
         都不算特别高,说明蕴含中的同义关系相对较难,模型难以习得其分类依据.

                                 Table 3    Classification report of BERT2 on test set
                                      表 3   BERT2 在测试集上的分类报告
                                               Precision  Recall  F1-score  Support
                                     省略         0.79    0.82   0.81   329
                                    结构变化        0.64    0.55   0.59   110
                                     常识         0.62    0.63   0.62   252
                                    位置信息        0.74    0.70   0.72    91
                                    数量关系        0.73    0.93   0.82    70
                                   上下位关系        0.68    0.64   0.66    81
                                    近义关系        0.58    0.55   0.56   164
                                    Avg/Total   0.69    0.69   0.69   109

             本实验的方法不足之处在于:一组蕴含句对可能含有多个不同类型的蕴含关系,容易在模型识别过程中产
         生干扰信息影响实验结果.BERT2 实验仅输入蕴含语块而放弃句对中非蕴含语块信息反而达到了实验的最优
         结果也证实了这一点.所以,下面我们将进行中文蕴含语块-类型识别的任务,进一步探究蕴含语块和蕴含类型
         之间的关系.

         5    基于深度学习的中文蕴含语块-类型识别
             上一节用深度学习模型做了中文蕴含类型识别实验,实际上是把蕴含语块作为有效输入来预测具体的蕴
         含类型.在实验过程中,我们发现模型对复合蕴含的识别效果较差.当输入只含有一组语块位置信息时,模型很
         难根据这一组语块判断出所有可能的蕴含类型标签.例如:
             P:一个小男孩正在抚摸一只躺下的老虎.                   H:一个孩子正在爱抚一种危险的动物.
             例句中有 5 组蕴含语块和 4 个蕴含关系类型:(1) “小男孩-孩子-上下位关系”;(2) “老虎-动物-上下位关系”;
         (3) “抚摸-爱抚-近义关系”;(4) “躺下的-null-省略”;(5) “老虎-危险的动物-常识推理”.
             如果只给出“抚摸-爱抚”这一对语块,模型可以判断出这组语块具有近义关系,但是难以据此判断出其余 3
         种的蕴含类型.
             另一方面,在例句中,“上下位关系”对应了两组蕴含语块,“小男孩-孩子”和“老虎-动物”都具有上下位关系.
         已知例句含有上下位蕴含关系,模型可以在找出其中一组对应的语块,但是会遗漏另一组对应语块.
             如果模型可以同时识别出蕴含语块和类型,这个问题就迎刃而解了.根据这个思路,我们提出两个解决方
         法,希望能够解决蕴含语块和蕴含类型之间的对偶性问题,进而提高蕴含类型识别准确率:首先,对复合蕴含句
         对进行扩充,使其在数据集中重复出现,每次出现只包含一组蕴含语块和蕴含类型的标注信息;其次,提出一个
         蕴含语块-类型识别的新任务,把蕴含语块识别和蕴含类型识别整合在一起,根据蕴含语块匹配蕴含类型.因为
         蕴含语块决定蕴含类型,所以蕴含语块-类型识别任务的逻辑应该是根据蕴含语块的语义信息去识别蕴含句对
         的具体类型,而不是在已知蕴含类型的情况下识别句对中的蕴含语块的边界.
             蕴含类型识别本质是分类任务,而语块识别的本质是序列标注任务.识别语块就是在句子中找到语块边界,
         也就是找到语块在句中开始和结束的位置.我们用 IOB 标注法表示语块在句中的位置标签,用上文提到的 7 种
         中文蕴含关系类型作为类型标签.整合 IOB 位置标签和中文蕴含类型标签,得到 14 个形如“B-Cent_Modi”
   110   111   112   113   114   115   116   117   118   119   120