Page 272 - 《软件学报》2021年第7期
P. 272
2190 Journal of Software 软件学报 Vol.32, No.7, July 2021
由图 3 可以看出,动词与宾语的依存关系(VOB/IOB/FOB)连接的两个部分分别构成了主题 Topic w 、Topic v .
根据图 3 动宾关系主题判断规则,可以给出动宾关系主题判断规则的定义如下.
动宾关系主题判断规则. 复杂用户评论核心关系(HED)对应的核心词为动词(v),核心词存在动宾关系
(VOB)或间宾关系(IOB)或前置宾语关系(FOB),则以动词与宾语的依存关系(VOB/IOB/FOB)为界,动词与宾语的
依存关系(VOB/IOB/FOB)连接的两部分各构成一个主题.
当复杂用户评论分句只存在一个主题时,分句中的依存句法关系有向图中的依存关系较为简单,且分句通
常不满足并列关系主题判断规则和动宾关系主题判断规则.因此,对于不满足多个主题判断规则的复杂用户评
论分句,则认为复杂用户评论分句只存在一个主题,从而制定了单一主题判断规则,如图 4 所示.
Fig.4 Topic judgment rule of single
图 4 单一主题判断规则
由图 4 可以看出,由于不存在并列关系(COO),也不满足动宾关系主题判断规则,因而只构成了一个主题
Topic r .根据图 4 所示单一主题判断规则,可以给出单一主题判断规则的定义如下.
单一主题判断规则. 复杂用户评论中不存在并列关系(COO),且核心词不为动词,或核心词为动词时,核心
词不存在动宾关系(VOB)或间宾关系(IOB)或前置宾语关系(FOB),则复杂用户评论只存在一个主题.
在依存句法关系有向图中,存在与各个主题直接相关的节点,这些节点构成了各个主题相关的词集(如图 1
示例中,图 1(1)的“编码”“格式”“不对”构成了一个主题相关的词集,“一直”“报错”构成了另一个主题相关的词
集).在应用主题判断规则判断主题时,对于并列关系主题判断规则与动宾关系主题判断规则需要区分不同主题
直接相关的节点以获取主题相关的词集.由于并列关系主题判断规则是以并列关系(COO)为界,因此,当应用并
列关系主题判断规则判断复杂用户评论分句中的主题时,断开依存句法关系有向图中的并列关系(COO)有向
边,此时,复杂用户评论分句的依存句法关系有向图由多个独立的子图构成,独立子图的节点则构成了主题相关
的主题词集.例如图 2 中 Topic x 的主题词集为节点“Root、Word a 、Word b 、Word c 、Word d ”,Topic y 的主题词集为
节点“Word e ”,Topic z 的主题词集为节点“Word f ”.同理,动宾关系主题判断规则是以动词与宾语的依存关系(VOB/
IOB/FOB)为界,则当应用动宾关系主题判断规则判断复杂用户评论分句中的主题时,断开依存句法关系有向图
中的动词与宾语的依存关系(VOB/IOB/FOB)有向边,复杂用户评论分句的依存句法关系有向图中的各独立子
图的节点则构成了各主题相关的词集.
通过主题判断规则,可以判断复杂用户评论分句中的主题以及主题相关的词集.由于在获取复杂用户评论
分句的依存句法关系时,需要相对完整的分句语义才能获取较为准确的依存句法关系.因此,在获取分句依存句
法关系时,未对分句执行去停用词等操作.鉴于这种情况,在判断复杂用户评论分句中的主题与主题相关的主题
词集后,需要对每个主题对应的子图进行一些剪枝操作,以去掉停用词等噪声词语,获取主题最相关的词语,即
主题相关词.
通过分析复杂用户评论,复杂用户评论分句中与主题相关的依存关系主要有 HED、SBV、ADV、VOB、
IOB、FOB,而与主题相关的词的词性主要为名词(n)、动词(v)、形容词(a)、副词(d).因此,综合考虑依存句法关
系和词的词性制定了两类剪枝操作,如下所示.