Page 120 - 《软件学报》2021年第12期
P. 120
3784 Journal of Software 软件学报 Vol.32, No.12, December 2021
域的相关研究较少,主要包括以下 3 类代表性工作.
(1) 针对某一类或多类零指代现象自行构建小规模语料并进行可计算模型的探索.
[8]
典型的工作包括:Converse 在其博士论文研究中选取 CTB3.0 中的 205 篇新闻文本进行了第三人称代词
和零指代的标注.Converse 的标注直接在句法树上进行,句法是进行各类现象判断的标准.此外,因为 Converse 的
研究主要关注第三人称代词和零指代,对于不包含第三人称代词和零指代的其他指代关系并未进行标注,但各
类指代现象间存在明显的互补性,孤立地进行两种类别指代的标注可能会隐藏部分重要信息.对标注结果的分
析也发现,Converse 标注的零指代只涵盖了部分句法树上处于主语位置的零指代现象.使用 Converse 的语料,
[9]
Zhao 和 Ng 首次提出了一个基于机器学习的汉语零指代方法,并探讨了这一任务的困难之处.他们将零元素消
解分为零元素的识别和消解,通过与标准句法树进行对比,构建正例和负例作为训练实例,借助决策树来进行分
[9]
类.但是由于正例和负例的分布严重不平衡,因此实验结果并不理想.Kong 等人 在研究了与汉语零指代相关的
几种句法结构的基础上,选取 CTB6.0 中的 100 个文档进行了零指代的标注.Kong 的研究主要关注结构化句法
信息对汉语零指代的影响,因此其标注也是以句法树为参考依据.与 Converse 不同的是:他们不仅标注了主语位
的零指代现象,也考虑了宾语等其他位置.但 100 个文档的规模较小,也仅仅标注了零元素的先行词,零指代与普
通实体指代间的关系并未进行标注.他们基于这一小规模的语料进一步提出了一个统一的框架进行零指代消
[9]
解,将这一任务分为零元素识别、待消解项确定和零元素消解.不同于 Zhao 和 Ng 提出的基于特征的方法,他
[9]
们使用基于句法树的方法,在零元素识别和消解上相较于 Zhao 和 Ng 都有了明显的提升.
(2) 将零元素看作句法分析中产生的空语类的一种,借助句法树中标注的空语类信息进行研究.
早期关于空语类的研究大都采用基于规则的方法.CAMPBELL [10] 提出一种基于宾州树库的算法来恢复空
语类.Chung 等人 [11] 在研究机器翻译时发现:在句子中添加空语类,可以有效提升翻译准确率.仿照 Johnson [12] 和
Gabbard [13] 的工作,他们使用基于模式的方法,通过统计语料发现:只有充当代词成分的零元素能够提高语料句
法结构的完整性,并且可以帮助提升下游机器翻译任务的准确率.
随着机器学习技术的发展,很多学者开始尝试借助机器学习模型进行空语类的回复.Yang 和 Xue [14] 提出组
合词汇和句法信息进行空语类恢复,他们将空语类的恢复看作是序列标注问题,通过给空语类建立句法特征和
词法特征,使用最大熵模型建立分类器,在每个词的后面判断是否有空语类.在标准句法树上性能较好,F 值达到
89%,但在自动句法树上,性能下降至 63.2%,以此说明空语类严重依赖句法信息.受 Yang 和 Xue [14] 工作的启发,
Cai 等人 [15] 将空语类的恢复集成到中文句法分析中,通过修改句法解析器,使得它可以用 WordLattice(字格)作为
输入,并能够减少人工干预,自动恢复空语类.这使得在自动句法树上的性能较 Yang 和 Xue 有了一定的提升,F
值达到 67.0%.Kong 和 Zhou [16] 提出了基于小句的空语类识别方案,认为局部句法信息的准确性相较较高.使用
语义角色标注方法获得短句,针对终端短句,采用线性标注的方法;针对非终端短句,使用结构化分析的方法.此
外,考虑到中文逗号意义丰富,为了提高短句识别的准确性,还加入了逗号消岐.中文空语类识别在自动句法树
上的性能 F 值提升至 74.6%.Xiang 等人 [17] 将恢复空语类的问题转化为分类问题.考虑到空语类对句法结构有
很强的依赖性,他们将空类型标签删掉,并将空语类的位置信息和类别信息转移到句法树上层节点,引入句法树
特征、词法特征以及空语类特征,借助最大熵模型对预测为包含空语类信息的节点进行恢复.Xue 等人 [18] 首次
引入依赖关系,使用空语类的头信息和后一个词组成训练实例,成功解决 Yang 和 Xue [14] 给出的序列标注无法识
别连续多个空语类的问题.Zhou 等人 [19] 通过实验发现:在句法分析中加入空语类标签,能够有效提升准确率.为
了更好地描述空语类,他们将空语类标签重新定义,并提出了基于规则、句法分析以及依赖关系的 3 种方法.实
验结果表明:使用新的空语类标签后,句法分析准确率明显提高.但空语类表达是成分间的句法依赖关系,与篇
章层的零指代存在一定的差异.
(3) 在 OntoNotes 语料上进行零指代研究.
语料资源方面,得到大众认可的汉语零指代语料是 OntoNotes 语料 [20] .该语料的中文部分标注了主语位置
的零元素及其所属的指代链情况,为目前的汉语零元素研究工作提供了资源支持.与前面小规模的语料标注相
比,该语料的规模扩大很多,但仍然是基于句法信息的零指代资源.使用 OntoNotes 语料,一些研究者展开了零指