Page 111 - 《软件学报》2020年第12期
P. 111
于东 等:中文文本蕴含类型及语块识别方法研究 3777
的一致性,我们对标注员进行了系统培训,同时开展试标注环节.在试标注期间,根据标注的实际情况调整标注
原则.在正式标注期间,采用抽样复核的方式检查标注情况,最后的标注正确率达到 90%以上.这个方法在一定程
度上解决了多人标注引起的不一致问题,提高了蕴含语块标注的准确性.
3.2 数据分析
我们对所有标注数据做了统计分析,词汇、句法、推理这 3 个类型的比例关系如图 2.句法结构类蕴含关系
是最多的,总共有 4 580 例,占 38.17%;推理关系其次,有 4 373 例,占比 36.43%;最少的是词汇关系类蕴含,有 3 047
例,占比 25.40%.
Fig.2 Chinese entailment type distribution
图 2 中文蕴含类型分布
在我们的标注数据中,句法结构类蕴含的占比最高,其次是推理类蕴含的占比,词汇类蕴含占比最少.这与
金天华的工作有所出入.我们认为,数据量的扩大是主要原因.先前工作只标注了 4 000 个样例数据,而现在我们
有 12 000 个样例,数据量扩大到 3 倍,意味着我们的文本更接近真实文本的情况.同时,数量结构、位置信息两类
被加入推理大类中,推理的比例上升,词汇的比例就下降.
句法结构类占比最大,是可以从数据长度上证明的.统计发现:P 的平均长度是 18.3 个词,最大长度是 70 个
词,出现频率最多的是 13 个词;H 的平均长度是 10.7 个词,最大长度是 62 个词,出现最多的长度是 9 个词.一般
情况下,H 的长度比 P 小,这说明了以省略为代表的句法结构蕴含是非常普遍的.
对蕴含语块进行词性标注后统计分析,发现蕴含语块的结构类型十分丰富,不论是从 P 句得到的蕴含前件,
还是从 H 句得到的蕴含后件,其类型数量都超出 1 000 种.蕴含语块出现频次排名前 3 的结构类型有:名词、数
词+名词、动词+名词,如图 3 所示.
Fig.3 Top3 structures of entailment chunks
图 3 出现频次前 3 高的蕴含语块结构类型
说明名词、动词等结构类型在语块中分布广泛.名词具有极强的指称作用,在人们对事物的认知过程中起