Page 130 - 《软件学报》2021年第12期
P. 130

3794                                Journal of Software  软件学报 Vol.32, No.12, December 2021

                                  Table 3    Zero anaphora distribution over distances
                                     表 3   零指代关系的距离类别分布统计
                                     指代关系类别             数量        比例(%)
                                      Intra-EDU          177        6.62
                                       Inter-EDU        2 495      93.38
                                       Overall          2 672       100
             我们对 Inter-EDU 类型的零指代关系进行了进一步的类别统计,表 4 给出了按先行词类别进行统计得到的
         数量分布.从表 4 所示的结果可以看到:先行词是 Entity 类别的情况占到了绝大多数,约为 94.91%.对这类零指代
         进行进一步统计发现,先行词是 OntoNotes 中已标注的某个实体指代链的零指代链有 2 188 个,约占实体类零指
         代的 92.41%;还有 180 个零元素的先行词是由未构成实体指代链的独立名词短语承担,约占实体类零指代链的
         7.60%.
                               Table 4    Inter-EDU zero anaphora distribution over types
                              表 4   Inter-EDU 类型的零指代关系的指代类别分布统计
                                   指代关系类别               数量          比例(%)
                                      Entity            2 368        94.91
                                      Event              55           2.21
                                      Union              27           1.08
                                      RET                45           1.80
                                     Overall            2 495         100
             (4)  跨 EDU 的零指代链的距离分布
             表 5 给出了 Inter-EDU 类型的零指代关系跨 EDU 数量的分布情况.从统计结果可以看到:零指代关系跨度
         小于等于 3 个 EDU 的情况占到了总情况的 92.71%,而超过 3 个 EDU 的零指代关系通常为 Entity 类型.
                             Table 5    Inter-EDU zero anaphora distribution over distances
                                表 5   Inter-EDU 类型的零指代关系的距离分布统计
                                                   指代关系的数量
                             跨越 EDU 的数量                                 比例(%)
                                           Entity  Event  Union  PER  Overall
                                  1        1 624   51   8    35   1 718   68.86
                                  2        412    3    15    6     436   17.47
                                  3        155    1     1    2     159    6.37
                                  4         71    0     1    1     73     2.93
                                  5         32    0     0    1     33     1.32
                                 ≥6         74    0     2    0     76     3.05
                                Overall    2 368   55   27   45   2 495   100

         3.5   与OntoNotes中标注的零指代结构的对比
             最后,我们将篇章视角的零指代结构的标注结果与 OntoNotes 中已标注的句法视角的零指代结构进行了对
         比.OntoNotes 中选取了*pro*部分进行了零指代信息的标注.在我们选取的 325 篇来源 CTB 的文档中,*pro*共有
         1 077 个,其中,在实体指代链上的*pro*为 944 个,有 133 个*pro*被认为是非待消解的零元素.而我们的篇章视角
         的零指代语料库共标注了 2 672 个零元素,其中,有 1 010 个与 OntoNotes 中标注的零元素重叠,与 OntoNotes 中
         标注的实体指代链上的零元素重叠的有 900 个.这 1 010 个重叠的零元素按照我们给出的零元素分类体系进行
         分类,具体的分布见表 6.
             进一步观察这 1 010 个重叠的零元素,发现有 110 个零元素在 OntoNotes 中被视为非待消解项.与 OntoNotes
         语料只关注实体指代不同,在我们的语料中,为了后续进行多种类型指代的联合学习,语料标注涵盖了 Event,
         Union 和 RET 类型.表 7 给出了 1 010 个重叠零元素形成的指代关系的类别分布情况.
             从表 7 给出的类别分布统计结果可以看到:修饰型零元素在 EDU 内就完成了指代的消解的情况占到总数
         的 17.03%,而占据绝大多数的仍然是跨 EDU 的实体类的指代关系.
   125   126   127   128   129   130   131   132   133   134   135