Page 127 - 《软件学报》2021年第12期
P. 127
孔芳 等:篇章视角的汉语零指代语料库构建 3791
3 篇章视角的汉语零指代标注规范的制定和语料构建
3.1 文本数据的准备
我们选取宾州汉语树库(Chinese treebank,简称 CTB) [41] 中的前 325 篇(chtb0001~chtb0325)文本进行零指代
结构的标注,标注的同时进行了成分句法结构、实体指代结构和篇章修辞结构的融合.
CTB 语料由 LDC 正式发布,在 NLP 领域的很多任务中都有广泛应用,经过多年的积累,已经包含句法、浅
层语义、可比较语料、实体指代消解等多方面的标注信息.首先,CTB 语料提供了标准的成分句法分析结果,为
构建篇章修辞句法组合树奠定了句法部分的基础;其次,OntoNotes 语料给出了实体指代结构、语义角色标注等
多方面的信息,其 NW 部分涵盖了 CTB 的这 325 个文档,为零指代结构与普通的实体指代结构的融合奠定了基
础;最后,苏州大学自然语言团队发布的基于连接词驱动的篇章树(connective-driven discourse tree,简称 CDT)结
构的汉语篇章树库(Chinese discourse treebank,简称 CDTB) [38,39] 中也涵盖了这 325 个文档,为从篇章视角进行零
指代结构的标注提供了篇章体系结构的支撑.根据其标注的标准段落、句子信息以及 CDTB 中标注的标准 EDU
信息进行统计,该语料总共包含 1 367 个段落(即 1 367 棵篇章修辞结构树),4 098 个句子,6 628 个 EDU.
3.2 规范制定和标注过程
标注工作分为 3 个阶段.
• 第 1 阶段确定初步的标注规范,并设计开发相应的标注平台.这部分工作的主要参与者是对可计算有
一定理解的资深语言学家,在大量生语料分析的基础上,同时考虑语料标注的质量以及通用性,充分讨
论的基础上形成初步的标注规范.然后对将要参与标注的人员进行初步培训,确保他们真实理解这一
规范;
• 第 2 阶段是预标注阶段,主要希望通过实践来确认参与标注的人员对规范的理解,同时检验规范的可
实施性,并在标注过程中对规范进行微调,并得到最终的标注规范;
• 第 3 阶段是正式标注和质量保证阶段.根据最终的标注规范完成所有文档的标注,对最终的标注文档
逐一校对,通过一致性分析确定分歧较大的语篇,以讨论的形式进行修正或删除不合理项,形成完整的
可发布的中文篇章零元素语料库.
篇章视角的零指代结构的标注是在以段落为单位的篇章修辞句法组合树上进行,以给定的实体指代链为
辅助信息.标注过程分 3 步进行:(1) 零元素及其类型的确定;(2) 先行词的确定;(3) 指代关系类型的确定.
为了简化工作量、提高标注效率以及标注一致性,我们首先将标注工作流程化,在恰当的场合提供必要的
辅助信息.给定文本后,从 CTB,CDTB 中提取句法和篇章修辞信息,以段落为单位,构建形成篇章修辞句法组合
树.当用户确定当前段落后,进入标注的 3 个阶段.
(1) 在零元素及其类型的确定阶段,EDU 是零元素确定的基本单位,篇章间的修辞结构或 EDU 内的局部
句法信息是确定零元素类别的参考依据.因此,将段落以切分好的 EDU 为单位进行篇章修辞结构的
展现,在标注者指定相应的 EDU 后,再进一步展现 EDU 对应的句法子树,让标注者依据相关信息进行
零元素及其类型的确定;
(2) 设定零元素后,进入先行词的确定环节.完整展现零元素前对应篇章修辞句法组合树的内容,同时读
取 OntoNotes 中标注的实体指代关系,并将相关的表述映射到修辞句法树中的各结点,在用户进行先
行词对应结点选择时,进行实体指代信息的提示;
(3) 选定先行词后,根据 EDU 跨度情况自动确定是 inter-EDU 还是 intra-EDU 类型,同时让用户确定指代
对象的类型.根据用户指定的类型信息,结合零元素位置(段落中第几个词的前面,词的划分以修辞句
法树中的叶节点为标准)和类型,先行词对应的结点,形成完整的指代结构信息,将这些信息以独立的
XML 文件格式保存.
根据上述标注流程,我们设计并开发实现了篇章视角的零元素标注平台,平台的基本工作流程如图 6 所示.
从工作流程可以看到:在标注过程中,标注者对于零元素的位置、类型、先行词的结点以及指代关系的类型等