Page 131 - 《软件学报》2021年第12期
P. 131
孔芳 等:篇章视角的汉语零指代语料库构建 3795
Table 6 Distribution over categories of zero elements overlapping with the OntoNotes corpus
表 6 与 OntoNotes 中重叠的零元素类别分布统计
零元素类别 数量 比例(%)
Main 503 49.80
Modify 507 50.20
Overall 1 010 100
Table 7 Distribution over types of zero anaphora overlapping with the ontonotes corpus
表 7 与 OntoNotes 中重叠的零元素对应的指代关系的类别分布统计
指代关系类别 数量 比例(%)
Intra-EDU 172 17.03
Entity 811 80.30
Event 5 0.50
Inter-EDU
Union 15 1.49
RET 7 0.69
Overall 1 010 100
除上述重叠部分,我们进一步分析了不重叠的情况,可以分为两种情况.
(1) OntoNotes 中未标注零元素,而在我们的语料中将其视为零元素.
例 11 给出了一个典型的例子.从统计数据可以看到:我们的语料中包含了 2 672 个零元素,是 OntoNotes 中
标注的零元素 2.48 倍.对比标注结果发现:多出的零元素部分,例 11 给出的情况占据了很大的比例.这也是 Yang
和 Xue [14] 基于多种句法信息进行了零元素识别和恢复的可计算研究后,分析他们的实验结果得出的一个结论
——很难区分是出现了零元素还是句法层面的共享主语.
例 11:[去年外商投资企业出口商品中,工业制成品占九成以上,] e1 [ϕ达四百三十八点八亿美元,] e2 [ϕ比上年
增长了百分之三十六点七,] e3 [ϕ明显高于全国平均水平.] e4
在篇章表示体系中,EDU 被认为是篇章构成的基本单位,因此篇章视角的零指代表示体系也以 EDU 为考察
零元素存在与否的基本单元.若它有语义成分上的缺失,而且这个缺失可以从上下文中恢复,我们就将这一缺失
的语义成分看作零元素.例 11 所示的句子包含 4 个 EDU,后 3 个 EDU 中存在明显的语义缺失,而缺失的对象可
以从前面的 EDU 中恢复,因此我们认为后 3 个 EDU 中出现的是零元素,而不是主语共享.而且从指代链类型看,
出现在 e2 中的第 1 个零元素和出现在 e3 中的第 2 个零元素指代的是“工业制成品”,属于 Entity 类型;而出现在
e4 中的第 3 个零元素指代的是“增长”这件事,属于 Event 类型.
例 12 给出了一个篇章视角不存在零元素,句法视角是共享主语的示例,图 8 给出了对应的句法分析结果.
例 12 仅包含一个 EDU,这个 EDU 表述的内容是完整的.而“会积极配合学校发展中心”和“密切与学校相关部门
联系与合作”间共享了主语“公司”.我们认为:若 VP 节点与其主语位于同一个 EDU 内部时,对上层篇章来说,该
EDU 表述是完整的,则当前省略表述不作为篇章零元素,而是句法层的共享主语现象.
例 12:[他说,公司会积极配合学校发展中心,密切与学校相关部门联系与合作.] e1
(2) OntoNotes 中标注了零元素,而在我们的语料中未将其视为零元素.
对比语料发现,这一现象共有 67 处.其中,位于 OntoNotes 标注的实体指代链上的零元素有 44 处.例 13~例
19 给出了一些 OntoNotes 中进行了标注(*pro*),而我们的语料未标注的零元素示例.从这些例子可以看到:关联
某个具体的驱动谓词,确实存在句法层面的成分缺失.然而从篇章视角看,这些 OntoNotes 中标注的缺失成分都
不是衔接上下文的语义成分,它们通常指代的是一些常识性的实体,对篇章的理解几乎没有影响.例如,例 14 中
标注的*pro*与驱动词“有”相关联,从句法层看缺失了“有”的施事者,但这个施事者在上下文中是没有衔接角色
的,因此对篇章理解没有意义.同样,例 16 中,谓词“出台”的施事者缺失了,但这个施事者在上下文中并未承担衔
接作用,对篇章理解是没有影响的.
例 13:据了解,目前,*pro*在外商投资企业获得的人民币贷款中,有近一半是中国银行提供的.
例 14:*pro*有人预言,随着九江的进一步开放开发,王翔将从政府划给他的土地中获得可观的利润.