Page 168 - 《软件学报》2021年第12期
P. 168
3832 Journal of Software 软件学报 Vol.32, No.12, December 2021
模块.下面分别对以上部分进行介绍.
2 融合案件要素的句子关联图构建方法
2.1 案件要素
案件舆情文本摘要可以看作特定领域的摘要问题,同一案件相关的多篇新闻构成一个文本簇,这些文本具
有相同的案件相关信息.通过对案件本身和新闻舆情的特点进行分析,定义了一些案件要素来表征案件的主题
信息,包括“案件名、案发地、涉案人员、案件描述”这 4 个要素作为案件要素,具体实例见表 2.
Table 2 Case elements
表 2 案件要素表
要素名 关键词
案件名 南京摩托车飙车案
案发地 江苏、南京、高速公路
涉案主体 史某、史学伟
案件描述 飙车、危险驾驶、时速299
注:报道时间:2018 年 3 月 3 日;报道出处:https://www.thepaper.cn/newsDetail_forward_2015942
表 2 中以南京摩托车飙车案为例,“案发地”包括案发的城市地区和案发的具体场所,例如“江苏、南京、高
速公路”等.“涉案主体”不仅仅局限于受害人、嫌疑人和其代称,还包括关键证人,相关家属等所有与案件相关人
员.“案件描述”是指发生的是什么事情以及一些其他案件关键词,例如“飙车、危险驾驶”等.通过对每一个案件
构建一组案件要素,来表征案件相关信息.共构建了 50 组案件要素.
2.2 关联图构建方法
本节引入词节点来得到句子的特征表示、句子间的关联关系,借助案件要素节点来加强与案件主题相关的
句子间的关联关系.使用词频-逆文档频率(TF-IDF)、互信息(PMI)、同属关系、包含关系等方法来计算边的权
重,构建了一个包含句子、词和案件要素这 3 种节点的句子关联图:
G=(V,E) (1)
V={S,W,C} (1)
其中,集合 V 表示图中节点的集合,由 3 部分构成:句子集合 S、词集合 W 和案件要素集合 C.
• 句子集合 s={s 1 ,s 2 ,…,s l }里共有 l 个句子,是不同文本簇的所有文档经过去除特殊字符、分句、去除短
句子等预处理之后的句子总和.其中,s 2 表示第 2 个句子,l 表示句子集合的大小;
• 词集合 w={w 1 ,w 2 ,…,w m }是对所有文本簇使用 jieba 分词工具进行分词以及去停用词等操作后得到的
词表,其中,m 表示词表大小;
• 案件要素集合 c={c 1 ,c 2 ,…,c n }共有 n 个案件要素,包括所有不同案件的案件要素,其中,c 2 表示第 2 个案
件要素.E 表示图中边的集合:E={(v i ,v j )|v∈V},其中,v i 表征图中第 i 个节点.
因为图中有 3 种节点,所以图的邻接矩阵 A 由 9 个分块矩阵构成,见公式(3).其中,A SS 表示句子和句子
T
节点的关系矩阵,A SW 表示句子和词节点的关系矩阵, A 表示句子和案件要素关系矩阵的转置:
SC
A A A
SS SW SC
A = A T SW A WW A WC (3)
A T A T A
SC WC CC
共有 6 种边,每种边的定义和计算见公式(4):