Page 128 - 《软件学报》2021年第12期
P. 128

3792                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         信息的确定均以“选择”动作为主.此外,通过标注平台将一些不可能的位置屏蔽,设定一些必要的约束,例如零元
         素不能出现在某个词的内部,一个 EDU 最多只能有一个主干型零元素等,以此来保障标注质量,提升标注结果
         的一致性.

                            篇章修辞结构
                               树库                                  句法树库



                                       生成以段落为单          可视化生成指定           可视化生成指定
                                        位的CDT集合           段落的CDT           EDU的句法子树
                      生文本



                                                      确定先行词在修辞句           确定零元素位置
                       XML标注文档        确定先行词类型          法组合树上的结点             及其类型


                                                                  对应段落的指
                                                                     代链

                      Fig.6    Annotation procedure of chinese zero elments from discourse perspective
                                 图 6   中文篇章零元素标注平台的基本处理流程图

             最终形成的 XML 格式的标注信息如图 7 所示.每一个零指代关系对应形成一个 ZLink 标签,而 ZLink 标签
         中,EDUType 表明的是当前这一指代关系是 EDU 内部的,还是跨 EDU 的;ANTType 表明的是先行词属于哪种类
         型,具体对应第 2.2 节中给出的类别信息;ID 是以段落为单位顺序递增方式的序号.在每个 ZLink 中包含两个基
         本元素,即零元素和其指代的距离最近的先行词.零元素给出的是位于哪个词的前面,position 记录的是这个词
         在段落中的序号,type 用于表明零元素是主干型还是修饰型零元素.先行词则通过起始位置(position)和层次
         (level)定位了篇章修辞句法组合树中对应结点的状况,若先行词是 OntoNotes 中已标注的实体链上的某个表述,
         则 EntityID 用于记录这个指代链的序号.

                            〈ZLink ID=“⋅” EDUType=“inter/intra” ANTType=“Entity/Event/Union/RET”〉

                               〈Zero position=“idx” type=“Main/Modify”/〉
                               〈Antecend position=“idx” level=“idx” EntityID=“⋅”/〉

                            〈/ZLink〉

                        Fig.7    Annotation result in XML format of chinese zero anaphora structure
                                     图 7   汉语零指代结构对应的 XML 标注
         3.3   标注语料一致性评价及分析
             本文采用语料标注领域大家广泛接受的 Kappa 检验                  [42] 进行一致性检验,以此来评估语料标注的质量.
         Kappa 计算公式如下:
                                                    P −  P
                                              Kappa =  O  C                                   (1)
                                                     1 P−
                                                        C
         其中,P O 表示观察一致率,P C 表示偶然一致率.通常认为:Kappa 值大于 0.75,则表示标注具有较好的一致性;如果
         Kappa 值小于 0.4,则表示一致性较差.
             从标注语料中随机抽取 30 篇文档,再选取两名标注人员对它们进行独立标注,再根据标注结果计算标注的
         一致性.汉语零指代语料的一致性主要包括以下 4 个方面.
             (1)  零元素位置的一致性:以 EDU 为单位,当标注零元素的在 EDU 内部的位置相同时,认为零元素标注是
                 一致的;
   123   124   125   126   127   128   129   130   131   132   133