Page 168 - 《软件学报》2021年第12期
P. 168

3832                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         模块.下面分别对以上部分进行介绍.

         2    融合案件要素的句子关联图构建方法

         2.1   案件要素
             案件舆情文本摘要可以看作特定领域的摘要问题,同一案件相关的多篇新闻构成一个文本簇,这些文本具
         有相同的案件相关信息.通过对案件本身和新闻舆情的特点进行分析,定义了一些案件要素来表征案件的主题
         信息,包括“案件名、案发地、涉案人员、案件描述”这 4 个要素作为案件要素,具体实例见表 2.
                                            Table 2  Case elements
                                              表 2   案件要素表
                                         要素名           关键词
                                         案件名       南京摩托车飙车案
                                         案发地      江苏、南京、高速公路
                                        涉案主体         史某、史学伟
                                        案件描述    飙车、危险驾驶、时速299
              注:报道时间:2018 年 3 月 3 日;报道出处:https://www.thepaper.cn/newsDetail_forward_2015942
             表 2 中以南京摩托车飙车案为例,“案发地”包括案发的城市地区和案发的具体场所,例如“江苏、南京、高
         速公路”等.“涉案主体”不仅仅局限于受害人、嫌疑人和其代称,还包括关键证人,相关家属等所有与案件相关人
         员.“案件描述”是指发生的是什么事情以及一些其他案件关键词,例如“飙车、危险驾驶”等.通过对每一个案件
         构建一组案件要素,来表征案件相关信息.共构建了 50 组案件要素.

         2.2   关联图构建方法
             本节引入词节点来得到句子的特征表示、句子间的关联关系,借助案件要素节点来加强与案件主题相关的
         句子间的关联关系.使用词频-逆文档频率(TF-IDF)、互信息(PMI)、同属关系、包含关系等方法来计算边的权
         重,构建了一个包含句子、词和案件要素这 3 种节点的句子关联图:
                                                 G=(V,E)                                      (1)
                                               V={S,W,C}                                      (1)
         其中,集合 V 表示图中节点的集合,由 3 部分构成:句子集合 S、词集合 W 和案件要素集合 C.
             •   句子集合 s={s 1 ,s 2 ,…,s l }里共有 l 个句子,是不同文本簇的所有文档经过去除特殊字符、分句、去除短
                句子等预处理之后的句子总和.其中,s 2 表示第 2 个句子,l 表示句子集合的大小;
             •   词集合 w={w 1 ,w 2 ,…,w m }是对所有文本簇使用 jieba 分词工具进行分词以及去停用词等操作后得到的
                词表,其中,m 表示词表大小;
             •   案件要素集合 c={c 1 ,c 2 ,…,c n }共有 n 个案件要素,包括所有不同案件的案件要素,其中,c 2 表示第 2 个案
                件要素.E 表示图中边的集合:E={(v i ,v j )|v∈V},其中,v i 表征图中第 i 个节点.
             因为图中有 3 种节点,所以图的邻接矩阵 A 由 9 个分块矩阵构成,见公式(3).其中,A SS 表示句子和句子
                                                    T
         节点的关系矩阵,A SW 表示句子和词节点的关系矩阵, A 表示句子和案件要素关系矩阵的转置:
                                                    SC
                                               A    A    A
                                                SS   SW   SC
                                            A  = A T SW  A WW  A WC                           (3)
                                               A T  A T  A
                                                SC   WC   CC

             共有 6 种边,每种边的定义和计算见公式(4):
   163   164   165   166   167   168   169   170   171   172   173