Page 123 - 《软件学报》2021年第12期
P. 123
孔芳 等:篇章视角的汉语零指代语料库构建 3787
遇”.其中,第 1 层含义各语义构成成分完整,不存在零元素;第 2 层含义中的施事者“这种良好的态势”缺失了,因
此存在一个零元素,即例 3 的 e3 中所示的“ϕ”,它指代前一个 EDU 中提及的“这种良好的态势”,形成了一个零指
代关系.在这两层含义中,主干语义是第 2 层含义,即“这种良好的态势使得其面临很多发展机遇”,零元素承担了
EDU 内主干语义成分的角色,属于篇章主干型零元素.
例 4 给出了一个包含两个 EDU 的句子示例,这两个 EDU 形成了因果关系.其中,第 2 个基本篇章单元 e2 表
达的主干语义信息是“大量出现的是新情况、新问题”,而“以前不曾遇到过的”是“新情况、新问题”的修饰成分,
但在这修饰成分中,谓词“遇到”的施事者被省略了,它指代的是前一个 EDU 中出现的“浦东”.因为此处的语义缺
省出现在修饰成分中,我们将这一零元素归为修饰型零元素.
例 4:[浦东开发开放是一项振兴上海,建设现代化经济、贸易、金融中心的跨世纪工程,] e1 [因此大量出现的
是ϕ以前不曾遇到过的新情况、新问题.] e2
对比例 3 和例 4 我们可以看到:相比篇章主干型零元素,篇章修饰型零元素对 EDU 内部语义成分间的关系
抽取以及局部句法分析的影响较大,它们的存在与 EDU 内部的句法结构,甚至是某一短语内的句法结构关系密
切,对 EDU 之上的粒度更大的篇章分析的影响相对较小.但很明确,准确识别修饰型零元素将有助于明确局部
语义成分,帮助更好地表征 EDU,从而减少复杂的修饰成分对篇章理解带来的噪声.从可计算的角度考虑,篇章
主干型零元素与篇章的衔接性和连贯性关联更大,在这类零元素的自动识别方面,应更多地考虑篇章层面的信
息;修饰型零元素更多与 EDU 内部的局部句法信息关系密切,这类零元素的自动识别应更多地考虑句法信息的
支撑.
对于零元素的标注还存在定位问题.所谓零元素,是形式上不存在,而语义上存在的某个成分.另外,人为对
其进行形式上的添加存在位置的不唯一性.就例 4 给出的例子看,人为将零元素插入在“以前”这一修饰语的前
面或后面都可以,具体参见例 5 给出的两种插入结果.零元素的先行词是“浦东”,对于 e2 这个 EDU 而言,语义补
全后,“大量出现的是浦东以前不曾遇到过的…”和“大量出现的是以前浦东不曾遇到过的…”,从句法和语义层
都是合理的.
例 5:
(1) [浦东开发开放是一项振兴上海,建设现代化经济、贸易、金融中心的跨世纪工程,] e1 [因此大量出现
的是ϕ以前不曾遇到过的新情况、新问题.] e2
(2) [浦东开发开放是一项振兴上海,建设现代化经济、贸易、金融中心的跨世纪工程,] e1 [因此大量出现
的是以前ϕ不曾遇到过的新情况、新问题.] e2
对于上述情况,为了保证语料标注的一致性,对零元素的位置出现多个可选时,要求统一定位在可选的首号
位置.当然,在进行可计算研究时,在评测中可考虑在忽略零元素前后的连词和修饰成分的基础上进行位置是否
正确的判定.
2.2 篇章视角的零指代结构
零指代结构关注零元素与其先行词之间的关联关系.篇章视角的零指代结构需要从篇章层确定指代结构
的几个核心要素,具体包括:
(1) 指代关系的考察范围
指代描述的是篇章层的语言现象,实体指代关系遍布整篇文章.不过,已有的研究(特别是对代词作为待消
解项的研究 [40] )发现,其先行词通常在当前句或前两句.零元素是形式上省略、而读者可以根据上下文进行语义
恢复的对象,其聚焦性强于代词.因此,与零元素关联的先行词通常不会与零元素跨越很远.基于这一原则,我们
将零指代结构的考察范围限定在相同段落内.由于汉语微观篇章修辞结构 [38,39] 将每个段落映射成一棵独立的
篇章修辞结构树,因此我们将零指代结构的考察范围限定在零元素所在的篇章修辞结构树中.
在上下文中承担了衔接作用的零元素,这类零元素的先行词一定显式地在上下文中出现过.为了从语义层
更好地确定零元素指代的先行词,我们首先将实体指代链作为考察对象,确认当前零元素指代的是哪一个实体
指代链.众所周知:指代结构并不是两个表述之间的关系,而是若干个表述之间的关系.将零元素关联到具体的