Page 130 - 《软件学报》2021年第12期
P. 130
3794 Journal of Software 软件学报 Vol.32, No.12, December 2021
Table 3 Zero anaphora distribution over distances
表 3 零指代关系的距离类别分布统计
指代关系类别 数量 比例(%)
Intra-EDU 177 6.62
Inter-EDU 2 495 93.38
Overall 2 672 100
我们对 Inter-EDU 类型的零指代关系进行了进一步的类别统计,表 4 给出了按先行词类别进行统计得到的
数量分布.从表 4 所示的结果可以看到:先行词是 Entity 类别的情况占到了绝大多数,约为 94.91%.对这类零指代
进行进一步统计发现,先行词是 OntoNotes 中已标注的某个实体指代链的零指代链有 2 188 个,约占实体类零指
代的 92.41%;还有 180 个零元素的先行词是由未构成实体指代链的独立名词短语承担,约占实体类零指代链的
7.60%.
Table 4 Inter-EDU zero anaphora distribution over types
表 4 Inter-EDU 类型的零指代关系的指代类别分布统计
指代关系类别 数量 比例(%)
Entity 2 368 94.91
Event 55 2.21
Union 27 1.08
RET 45 1.80
Overall 2 495 100
(4) 跨 EDU 的零指代链的距离分布
表 5 给出了 Inter-EDU 类型的零指代关系跨 EDU 数量的分布情况.从统计结果可以看到:零指代关系跨度
小于等于 3 个 EDU 的情况占到了总情况的 92.71%,而超过 3 个 EDU 的零指代关系通常为 Entity 类型.
Table 5 Inter-EDU zero anaphora distribution over distances
表 5 Inter-EDU 类型的零指代关系的距离分布统计
指代关系的数量
跨越 EDU 的数量 比例(%)
Entity Event Union PER Overall
1 1 624 51 8 35 1 718 68.86
2 412 3 15 6 436 17.47
3 155 1 1 2 159 6.37
4 71 0 1 1 73 2.93
5 32 0 0 1 33 1.32
≥6 74 0 2 0 76 3.05
Overall 2 368 55 27 45 2 495 100
3.5 与OntoNotes中标注的零指代结构的对比
最后,我们将篇章视角的零指代结构的标注结果与 OntoNotes 中已标注的句法视角的零指代结构进行了对
比.OntoNotes 中选取了*pro*部分进行了零指代信息的标注.在我们选取的 325 篇来源 CTB 的文档中,*pro*共有
1 077 个,其中,在实体指代链上的*pro*为 944 个,有 133 个*pro*被认为是非待消解的零元素.而我们的篇章视角
的零指代语料库共标注了 2 672 个零元素,其中,有 1 010 个与 OntoNotes 中标注的零元素重叠,与 OntoNotes 中
标注的实体指代链上的零元素重叠的有 900 个.这 1 010 个重叠的零元素按照我们给出的零元素分类体系进行
分类,具体的分布见表 6.
进一步观察这 1 010 个重叠的零元素,发现有 110 个零元素在 OntoNotes 中被视为非待消解项.与 OntoNotes
语料只关注实体指代不同,在我们的语料中,为了后续进行多种类型指代的联合学习,语料标注涵盖了 Event,
Union 和 RET 类型.表 7 给出了 1 010 个重叠零元素形成的指代关系的类别分布情况.
从表 7 给出的类别分布统计结果可以看到:修饰型零元素在 EDU 内就完成了指代的消解的情况占到总数
的 17.03%,而占据绝大多数的仍然是跨 EDU 的实体类的指代关系.