Page 124 - 《软件学报》2021年第12期
P. 124
3788 Journal of Software 软件学报 Vol.32, No.12, December 2021
实体指代链,一方面可以充分利用已有的实体指代的标注信息和端到端的自动实体指代消解工具;另一方面,也
可以较为容易地对零元素是否在上下文中承担了衔接作用进行准确地判断.当然,在标注过程中可以根据语义
选择同一指代链上的任意一个表述进行指称关系的标注,最终的先行词是由该表述对应的指代链来表示的.若
不存在某个实体指代链与当前零元素间有指代关系,我们再进行短语级别的其他指代对象的考察.
(2) 指代关系的分类
从服务于篇章的视角,我们从两个维度对零指代关系进行了分类.
一是根据指代关系是否跨越 EDU 将零指代关系分成 EDU 内(intra-EDU)和 EDU 间(inter-EDU)两种,其中:
inter-EDU 类型的指代关系发生在两个不同的 EDU 间,衔接的上下文更多的是篇章层对象;而 intra-EDU 类型的
指代关系发生在 EDU 内部,受到局部句法信息的影响更大.例 6 给出了一个 EDU,其中包含一个修饰型零元素,
其指代的对象是该 EDU 的主干主语“浦东”,这一指代关系在 EDU 内部完成,属于 intra-EDU 类型.可以看到,
intra-EDU 类型的指代关系中涉及的零元素一定是修饰型零元素.例 7 给出了一个 inter-EDU 类型的零指代关系
示例,该例子涉及相邻的两个 EDU,这两个 EDU 之间是并列关系,其中,第 2 个 EDU 的主干主语缺省,指向第一
个 EDU 的主干主语.
例 6:[浦东不是简单的采取“干一段时间,等ϕ积累了经验以后再制定法规条例”的做法,] e1
例 7:[这个开发区位于中国著名风景旅游城——杭州市区内,] e1 [ϕ是一九九一年国务院批准建设的国家级
高新技术产业开发区.] e2
二是将 inter-EDU 类型的指代关系,根据指代关系关联的对象是实体、事件还是其他抽象概念,分成了以下
4 种.
• EntityType:零元素指代前面提到的实体.例如:在例 7 中,第 2 个 EDU 中的零元素指向前一个 EDU 中提
及的实体“这个开发区”;
• EventType:零元素指代前面提到的事件,而不是某一个实体.例如:例 8 中包含两个 EDU,后一个 EDU 中
包含一个零元素,而它指代的正是前一个 EDU 提及的事件;
• UnionType:零元素指代前面提到多个事件或实体.如例 9 给出的例子,该句子包含 3 个 EDU:前两个
EDU 间构成了并列关系,再与第 3 个 EDU 构成了递进关系.在第 3 个 EDU 中存在一个主干成分的缺
失,而这一零元素从语义上指代前面的“从业人员”和“私营企业注册资金”两个实体;
• RETType:零元素指代的单元位于此零元素后面或者未显式出现的某个抽象概念.例 10 给出了一个先
行词在待消解项后面出现的示例.
例 8:[但全民公决不接受这一方案,] e1 [ϕ也就终止了整个进程.] e2
例 9:[从业人员有九万七千九百六十三人,] e1 [私营企业注册资金达到了三十亿零八千多万元,] e2 [ϕ分别比
去年同期增长一成至两成.] e3
例 10:[ϕ为了造福社会,] e1 [王码电脑公司毅然放弃本来可以赚大钱的机会.] e2
(3) 指代关系的标注位置
实体与事件之间是可以相互指代的,从服务于篇章理解,进行实体和事件的统一指代消解为目标,在进行零
元素指代关系构建时,我们参考 Proposition Bank 中语义角色标注(semantic role labeling,简称 SRL)的标注策略,
将指代的先行词定位成篇章修辞句法组合树中对应的某个结点.
篇章修辞句法组合树是指以段落为单位,将每个段落映射成一棵独立的树.该树由两部分组合而成:以 EDU
为基本单位,向上通过篇章修辞关系构建形成修辞结构树;再针对每个 EDU,抽取其对应的句法树或句法子树.
例如例 3 所示的一个篇章片段,图 1 给出了其对应的篇章修辞树,将其叶子结点对应 EDU 细化成句法子树就形
成了图 2 所示的篇章修辞句法组合树.