Page 119 - 《软件学报》2021年第12期
P. 119
孔芳 等:篇章视角的汉语零指代语料库构建 3783
relationship is furtherly divided into four categories according to the status of the antecedent, i.e., entity, event, union, and others. Finally,
this study selects the overlapped 325 texts of the Chinese treebank (CTB), the connective-driven Chinese discourse treebank (CDTB), and
the OntoNotes corpus to annotate the Chinese zero anaphora. System evaluation shows the high quality of the constructed corpus for
Chinese zero anaphora. Moreover, a complete zero anaphor resolution baseline system is constructed to show the appropriateness and the
effectiveness of the proposed representation architecture for Chinese zero anaphora from computability perspective.
Key words: zero anaphora; corpus construction; discourse analysis; elementary discourse unit; zero pronouns
篇章中提及了某个事物后,当再次论及这个事物时,会采用各种方式来进行上下文的照应,这一现象称为回
指(anaphor).当回指在篇章上没有任何的形式层体现时,就称这种回指为零指代(zero anaphor),它是一种特殊的
[1]
指代现象.相比英文,汉语中零指代出现的频度很高,正如 Kim 所统计:汉语中在主语位置出现零指代的情况约
占 36%,而英文主语位置的零指代不足 4%.正因如此,汉语零指代的研究对汉英文机器翻译、文本摘要以及阅读
理解等众多自然语言处理任务意义重大,已成为自然语言处理领域针对汉语研究的一个热点.
例 1 给出了一个汉语零指代的具体实例,该实例摘自 OntoNotes 中文语料的 chtb_0009 文件,其中:零元素用
“#”表示,位于相同指代链(即具有指代关系)的实体表述、零元素用相同颜色表示.
例 1:针对[甘肃]旅游业的发展需求,[人保公司]积极推出海外游客保险,[#] 1 还在国内首家推出海外散客保
险办法,[#] 2 使“八五”期间到[甘肃]观光游览的海外游客全部得到保险保障.[甘肃省]还积极探索高风险业务,
“八五”期间,[#] 3 参与卫星发射的共保,[#] 4 分担的风险金额达一千万元,[#] 5 支付赔款五百万元,[#] 6 成为西北首
家参与航天业务的公司.
例 1 共包含 6 个零元素,其中:第 1 号、第 4 号~第 6 号零元素指代相同的实体“人保公司”;第 3 号零元素指
代“甘肃省”;第 2 号零元素并不指代某个具体的实体,而是指代前文提到的“人保公司积极推出海外游客保险,
还在国内首家推出海外散客保险办法”这两个举措.由此可以看到,完整的零指代消解任务由 3 个子任务构成:
(1) 零元素识别,即识别出篇章语义上存在、但形式上未出现的那些“成分”;(2) 待消解的零元素识别,即根据零
元素出现的篇章上下文来确定其是否回指某个具体的实体;(3) 零指代消解,确定待消解的零元素回指的具体
实体,即先行词的确定.
[3]
[2]
众所周知,指代结构属于篇章的范畴.随着句子级词法、句法研究的日益成熟,特别是 MUC ,ACE 以及
CoNLL-shared Task2011 和 2012 系列会议和比赛 [2,3] 相继开展,多语言的实体指代语料库日益丰富,与篇章密切
相关的指代结构成为自然语言处理领域的研究热点之一.相比普通的实体指代消解,零指代消解任务更具挑战:
首先,零元素在形式上不存在,没有任何显式的提示信息,需要从篇章语义的上下文中识别出这些隐式的“成分”;
其次,汉语在形式的组织上相对松散,相同的语义成分可以以多种不同形式存在,这就造成了某些零元素可以出
现的位置并不唯一;最后,因为形式上不存在,很多在实体指代消解中非常有用的词、数、性等特征都无法提取.
因此,如何高效表征上下文特征成为研究的核心.要应对这些挑战,首先亟需解决的就是零指代结构体系及对应
语料资源的构建问题.本文从服务于篇章分析的角度出发,对汉语零指代进行了表示体系的研究,并基于这一体
系构建了中等规模的服务于篇章分析的汉语零指代语料库,为后续在篇章视角下开展汉语零指代消解的研究
奠定了扎实的基础.
本文第 1 节介绍汉语零指代资源建设的相关研究.第 2 节对篇章视角汉语零指代的表示体系进行详细说
明,并给出基于这一体系进行语料构建的标注规范和标注流程.第 3 节介绍了据此构建完成的语料资源.第 4 节
以该语料为基础给出了一个完整的汉语零指代消解基准平台.第 5 节对本文的工作进行总结和展望.
1 相关工作
虽然在语言学领域,对汉语零指代现象已经进行了一些比较系统全面的理论研究 [6,7] ,许多研究者从作者和
阅读者的角度出发,以话题链为描述手段,归纳总结了汉语话题凸显的语言描述特点,并强调汉语中零指代现象
广泛存在且没有任何约束,只能借助语义和语用知识,根据篇章中出现的信息进行零指代的解释.正是由于零指
代的灵活多样且没有约束,相关语料资源的标注非常困难.因此,受限于汉语零指代语料资源,在计算语言学领