Page 121 - 《软件学报》2021年第12期
P. 121
孔芳 等:篇章视角的汉语零指代语料库构建 3785
代可计算性的相关研究.典型工作包括:包含零指代识别和消解两个子任务,Chen 等人 [21] 第 1 个给出了完整的端
到端的汉语零指代消解平台,并给出一组有效的句法和上下文特征,借助这些特征实现了全自动的零指代分析.
深度网络技术的推进,各类向量嵌入工作的开展,Chen 等人 [22] 基于深度神经网络模型,将字法、词法、句法等许
多已经验证有效的特征以向量嵌入的方式融入零指代消解,以此构建了一个神经网络框架,一定程度上提升了
零指代消解的性能.但他们的工作也验证了,零指代消解的性能受到句法分析性能的严重影响.相比标准句法
树,在自动句法树下的端到端的汉语零指代消解的 F 值下降了近 42%.如何提升自动句法树下零指代的性能,成
为了关注焦点.Yin 等人 [23] 在 Chen 等人 [22] 的基础上对神经网络模型做了拓展,给出了一个深度记忆网络,利用两
个编码器对先行词进行局部编码和全局编码,获取先行词的局部特征和全局特征,再对零代词用上下文向量表
示来获取其上下文特征.为了更好地描述零代词,除了零代词的上下文信息外,还引入了候选先行词特征,通过
词嵌入获取向量之间的语义特征,并为每一层网络加上注意力信息,实验结果证明了该方法的有效性.Zhang 等
人 [24] 也尝试通过将特征向量化的方式来更好地表征先行词候选以及零元素和先行词候选的上下文语义信息,
再借助神经网络模型进行零指代消解.Yin 等人 [25] 在高效表征各类信息的基础上,还向神经网络平台引入了强
化学习策略,通过进一步提升神经网络的学习能力来提升汉语零指代消解的性能.Kong 和 Zhou [26] 提出零指代
不应该被孤立对待,而是应该与普通名词短语的消解形成完整的整体.基于此观点,他们提出了一种全新的链到
链的汉语零指代消解方案:首先将零元素聚类为共指链,每条共指链都作为一个独立的指代词,这样,那些距离
较远的零元素和先行词可以通过共指链的传递性进行链接;其次,名词短语也被聚类成不同组,每一个组作为一
个先行词独立存在.通过将普通名词短语的指代消解结果看作是对先行词候选进行过滤的一种手段,以指代链
为单位进行汉语零指代消解,这样大大减少了搜索空间,使得零指代消解的性能明显提升.
从上述相关研究可以看到,语料资源是开展汉语零指代可计算研究不可或缺的条件.为了降低对标注语料
的依赖,一些研究者也开展了各种相关研究.为了解决对标注语料的依赖,Chen [27] 提出了一种无监督的方法,借
助最大熵构建一个候选先行词排序模型,在包含显性代词的语料上训练得到模型参数后,将其应用到零代词消
解上.实验结果表明,该方法取得了比监督模型更好的消解效果.但是该方法的局限性在于:他们并没有研究零
代词的识别,提出的模型只能在零代词已经正确识别的基础上进行消解.在此基础上,为了更好地描述先行词特
征,Chen [28] 又提出一种非监督概率模型,为先行词加入了 4 个语法特征:Number(数量特征),Gender(性别特征),
Person(人称特征)和 Animacy(有生性特征),并使用 EM 算法 [29] 来推测最可能的先行词.为了考虑篇章特征,
Chen [30] 使用 SalienceModel(凸显模型)为每一个有效实体计算得分,并采用联合的方式识别和消解零代词.Liu
等人 [31] 为了解决零指代标注语料不足这一问题,将对零指代消解的方法由分类模型转化为阅读理解模型.利用
大量的伪语料训练阅读理解模型,并将此模型应用在零指代消解上.但他们的工作也针对零元素的消解进行了
研究,提出的基于注意力机制的神经网络模型也只适用于零元素已知的情况.
随着一定规模的 OntoNotes 语料库的发布,汉语零指代消解研究日趋活跃.不过,指代属于篇章级的语言现
象,从句法视角构建汉语零指代的结构体系存在着一些明显的问题,正如 Yang 和 Xue [14] 分析实验结果得出的结
论:仅关注句法信息,中文零元素的判别与句法层的共享主语现象间很难区分.另一方面,随着篇章分析相关研
究的展开,研究者开始意识到篇章层的信息对于零指代消解意义重大.例如,Sheng 等人 [32] 在传统零指代消解平
台中考虑了篇章修辞结构信息,在零元素识别、零元素消解等多个环节,都通过提取各类篇章级的信息来提升
性能.相应地,也有一些研究表明,零指代对于中文篇章分析意义重大.例如,奚雪峰等人 [33,34] 提出一种基于主述
位理论的篇章微观话题结构,其中的隐式主述位本质上就是零元素,它们在话题链的形成中意义重大.因此,本
文提出从服务于篇章分析的视角来构建汉语零指代的体系结构.
2 篇章视角的汉语零指代表示体系
研究者普遍认为:各语义成分是由驱动谓词管辖的,语义成分的缺省(零元素)可以通过“谓词驱动”这一方
式进行识别.例如:Cai 等人 [15] 尝试在句法分析的过程中,依据驱动谓词进行空语类的识别;Kong 和 Zhou 等人 [16]
提出,借鉴简化的语义角色标注(sematic role labeling,简称 SRL)方法识别子句,再以子句为单位进行空语类和零