Page 129 - 《软件学报》2021年第12期
P. 129
孔芳 等:篇章视角的汉语零指代语料库构建 3793
(2) 零元素类别的一致性:当零元素位置一致,再检测主干型和修饰型类别是否一致;
(3) 先行词的一致性:如果标注的先行词位置相同,认为标注的先行词一致;此外,当标注的零元素先行词
具有 EntityID,且 EntityID 相同,即使先行词位置不同(也就是选取了相同实体链上不同的表述作为其
先行词),我们仍然认为这个标注是一致的;
(4) 指代关系类型的一致性:当先行词一致,再检测指代的类型 Entity,Event,Union 和 RET 是否一致.
通过计算,本语料的零元素位置标注的一致性的 Kappa 值为 0.88,零元素类别标注的一致性 Kappa 值为
0.85,先行词的标注一致性的 Kappa 为 0.82,指代关系类型的一致性 Kappa 值为 0.81,4 个指标均超过了 0.8,表明
该语料的标注质量可靠.
3.4 语料规模的统计说明
篇章视角的汉语零指代语料库共包含 325 篇文档(chtb0001~chtb0325),全部来源于 CTB 语料,我们共标注
了零指代链 2 672 个,平均每个段落包含零指代关系 1.95 个.因为标注过程中进行了约束,每个 EDU 最多只有一
个主干型零元素,而实际上包含多个零元素的 EDU 极少,只出现 2 个,可以看到,包含零元素的 EDU 约占 EDU
总数的 40.31%.
下面对篇章视角的汉语零指代语料库中零元素的分布情况以及指代链的分布情况进行了统计分析.
(1) 零元素的段落分布
基于段落对零元素分布进行统计,对应结果见表 1.可以看到:在所有的 1 367 个段落中,不包含零元素的段
落仅占总数的 31.09%,有 425 个段落.也就是说,汉语篇章表述中,约有 68.91%的段落中存在零元素.这也说明了
汉语中省略是普遍存在的,汉语零指代是汉语的重要特效之一.
Table 1 Zero elements distribution over paragraphs
表 1 以段落为单位包含零元素数量的分布统计
零元素个数 数量 比例(%)
m=0 425 31.09
m=1 417 30.50
m=2 250 18.29
m=3 131 9.58
m=4 59 4.32
m=5 35 2.56
m=6 19 1.39
m=7 17 1.24
m≥8 14 1.02
Overall 1 367 100
(2) 零元素的类别分布
针对零元素类别分布进行统计,其分布结果见表 2.可以看到:主干型零元素(Main)占据了绝大部分,其比例
高达 80.16%,这部分零元素对篇章语义的理解以及篇章层的分析起到至关重要的作用;剩余的修饰型零元素所
占比例约为 19.84%,该部分主要关联的是 EDU 内部的细节语义,能辅助局部句法和语义分析,在后续的研究中
依旧存在不可替代的作用.
Table 2 Zero elements distritution over categories
表 2 零元素类别分布统计
零元素类别 数量 比例(%)
Main 2 142 80.16
Modify 530 19.84
Overall 2 672 100
(3) 零指代链的类别分布
表 3 给出了零指代链在 EDU 内和跨越 EDU 这两种情况的数量及比例,可以看到,跨越 EDU 的零指代关系
占到了绝大多数.这也进一步说明指代是篇章层面的特性,是篇章衔接性的一种体现.