Page 111 - 《软件学报》2020年第12期
P. 111

于东  等:中文文本蕴含类型及语块识别方法研究                                                          3777


         的一致性,我们对标注员进行了系统培训,同时开展试标注环节.在试标注期间,根据标注的实际情况调整标注
         原则.在正式标注期间,采用抽样复核的方式检查标注情况,最后的标注正确率达到 90%以上.这个方法在一定程
         度上解决了多人标注引起的不一致问题,提高了蕴含语块标注的准确性.

         3.2   数据分析
             我们对所有标注数据做了统计分析,词汇、句法、推理这 3 个类型的比例关系如图 2.句法结构类蕴含关系
         是最多的,总共有 4 580 例,占 38.17%;推理关系其次,有 4 373 例,占比 36.43%;最少的是词汇关系类蕴含,有 3 047
         例,占比 25.40%.




















                                    Fig.2    Chinese entailment type distribution
                                           图 2   中文蕴含类型分布
             在我们的标注数据中,句法结构类蕴含的占比最高,其次是推理类蕴含的占比,词汇类蕴含占比最少.这与
         金天华的工作有所出入.我们认为,数据量的扩大是主要原因.先前工作只标注了 4 000 个样例数据,而现在我们
         有 12 000 个样例,数据量扩大到 3 倍,意味着我们的文本更接近真实文本的情况.同时,数量结构、位置信息两类
         被加入推理大类中,推理的比例上升,词汇的比例就下降.
             句法结构类占比最大,是可以从数据长度上证明的.统计发现:P 的平均长度是 18.3 个词,最大长度是 70 个
         词,出现频率最多的是 13 个词;H 的平均长度是 10.7 个词,最大长度是 62 个词,出现最多的长度是 9 个词.一般
         情况下,H 的长度比 P 小,这说明了以省略为代表的句法结构蕴含是非常普遍的.
             对蕴含语块进行词性标注后统计分析,发现蕴含语块的结构类型十分丰富,不论是从 P 句得到的蕴含前件,
         还是从 H 句得到的蕴含后件,其类型数量都超出 1 000 种.蕴含语块出现频次排名前 3 的结构类型有:名词、数
         词+名词、动词+名词,如图 3 所示.












                                    Fig.3    Top3 structures of entailment chunks
                                    图 3   出现频次前 3 高的蕴含语块结构类型

             说明名词、动词等结构类型在语块中分布广泛.名词具有极强的指称作用,在人们对事物的认知过程中起
   106   107   108   109   110   111   112   113   114   115   116