Page 131 - 《软件学报》2021年第12期
P. 131

孔芳  等:篇章视角的汉语零指代语料库构建                                                            3795


                 Table 6    Distribution over categories of zero elements overlapping with the OntoNotes corpus
                                 表 6   与 OntoNotes 中重叠的零元素类别分布统计
                         零元素类别                      数量                     比例(%)
                           Main                     503                     49.80
                          Modify                    507                     50.20
                          Overall                  1 010                    100
                   Table 7    Distribution over types of zero anaphora overlapping with the ontonotes corpus
                         表 7   与 OntoNotes 中重叠的零元素对应的指代关系的类别分布统计
                               指代关系类别                       数量              比例(%)
                                 Intra-EDU                  172              17.03
                                           Entity            811             80.30
                                           Event             5               0.50
                        Inter-EDU
                                           Union             15              1.49
                                           RET               7               0.69
                                          Overall           1 010             100
             除上述重叠部分,我们进一步分析了不重叠的情况,可以分为两种情况.
             (1) OntoNotes 中未标注零元素,而在我们的语料中将其视为零元素.
             例 11 给出了一个典型的例子.从统计数据可以看到:我们的语料中包含了 2 672 个零元素,是 OntoNotes 中
         标注的零元素 2.48 倍.对比标注结果发现:多出的零元素部分,例 11 给出的情况占据了很大的比例.这也是 Yang
         和 Xue [14] 基于多种句法信息进行了零元素识别和恢复的可计算研究后,分析他们的实验结果得出的一个结论
         ——很难区分是出现了零元素还是句法层面的共享主语.
             例 11:[去年外商投资企业出口商品中,工业制成品占九成以上,] e1  [ϕ达四百三十八点八亿美元,] e2  [ϕ比上年
         增长了百分之三十六点七,] e3  [ϕ明显高于全国平均水平.] e4
             在篇章表示体系中,EDU 被认为是篇章构成的基本单位,因此篇章视角的零指代表示体系也以 EDU 为考察
         零元素存在与否的基本单元.若它有语义成分上的缺失,而且这个缺失可以从上下文中恢复,我们就将这一缺失
         的语义成分看作零元素.例 11 所示的句子包含 4 个 EDU,后 3 个 EDU 中存在明显的语义缺失,而缺失的对象可
         以从前面的 EDU 中恢复,因此我们认为后 3 个 EDU 中出现的是零元素,而不是主语共享.而且从指代链类型看,
         出现在 e2 中的第 1 个零元素和出现在 e3 中的第 2 个零元素指代的是“工业制成品”,属于 Entity 类型;而出现在
         e4 中的第 3 个零元素指代的是“增长”这件事,属于 Event 类型.
             例 12 给出了一个篇章视角不存在零元素,句法视角是共享主语的示例,图 8 给出了对应的句法分析结果.
         例 12 仅包含一个 EDU,这个 EDU 表述的内容是完整的.而“会积极配合学校发展中心”和“密切与学校相关部门
         联系与合作”间共享了主语“公司”.我们认为:若 VP 节点与其主语位于同一个 EDU 内部时,对上层篇章来说,该
         EDU 表述是完整的,则当前省略表述不作为篇章零元素,而是句法层的共享主语现象.
             例 12:[他说,公司会积极配合学校发展中心,密切与学校相关部门联系与合作.] e1
              (2) OntoNotes 中标注了零元素,而在我们的语料中未将其视为零元素.
             对比语料发现,这一现象共有 67 处.其中,位于 OntoNotes 标注的实体指代链上的零元素有 44 处.例 13~例
         19 给出了一些 OntoNotes 中进行了标注(*pro*),而我们的语料未标注的零元素示例.从这些例子可以看到:关联
         某个具体的驱动谓词,确实存在句法层面的成分缺失.然而从篇章视角看,这些 OntoNotes 中标注的缺失成分都
         不是衔接上下文的语义成分,它们通常指代的是一些常识性的实体,对篇章的理解几乎没有影响.例如,例 14 中
         标注的*pro*与驱动词“有”相关联,从句法层看缺失了“有”的施事者,但这个施事者在上下文中是没有衔接角色
         的,因此对篇章理解没有意义.同样,例 16 中,谓词“出台”的施事者缺失了,但这个施事者在上下文中并未承担衔
         接作用,对篇章理解是没有影响的.
             例 13:据了解,目前,*pro*在外商投资企业获得的人民币贷款中,有近一半是中国银行提供的.
             例 14:*pro*有人预言,随着九江的进一步开放开发,王翔将从政府划给他的土地中获得可观的利润.
   126   127   128   129   130   131   132   133   134   135   136