Page 166 - 《软件学报》2021年第12期
P. 166

3830                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         auxiliary nodes to enhance the relationship between sentences. Multiple features are used to calculate the relationship between different
         nodes. Then, graph convolutional neural network is used to learn this sentence association graph, and the sentence is classified to obtain
         the candidate summary sentence. Finally, the sentence is deduplicated and ranked to obtain the case-related public opinion summarization.
         Experiments are performed on the case-related public opinion summary dataset. The results show that the method achieves better results
         than the benchmark model, indicating that both the composition method and the graph convolution learning method are effective.
         Key words:    case-related public opinion summarization; graph convolution network; case elements; sentence association graph


             案件舆情是指与案件相关的互联网舆情,与一般的新闻舆情相比,案件舆情具有敏感性、特殊性,有着更大
         的社会影响.案件舆情摘要能够从案件相关新闻文本中摘取重要信息,从而简化新闻文本长度,帮助用户在大量
         的舆情数据中获取舆情事件的关键信息,对于案件舆情的监控与及时处理有着重要的作用.
             案件舆情摘要本质上是一种特定领域的多文档摘要任务,在多文档摘要的研究中,关键问题是对句子的重
         要性进行评价,并以此抽取摘要句子.传统方法有基于统计的摘要方法                         [1−4] 、基于主题模型的摘要方法       [5−7] 和基
         于图的摘要方法      [8−11] 等.基于统计的方法一般通过词频、句子位置、句子相似度等这类特征来评价句子的重要
         程度,然后通过一定的策略选取重要句子得到摘要,其中具有代表性的方法有基于词频-逆文档频率(TF-IDF)的
                 [1]
                           [4]
         统计方法 .Hong 等人 提出了一种简单的多文档摘要方法,用词的概率作为输入,然后选择平均词概率较高的
         句子作为摘要.基于主题模型的方法一般采用狄利克雷分布(LDA)的方法得到文本簇中预设数量的主题,然后
                                                                  [6]
         采用不同的算法计算句子和主题的相似度来得到摘要句.例如:刘娜等人 引入主题重要性的概念,将 LDA 建立
                                                                                             [7]
         的主题分成重要和非重要两类,并使用词频、位置等统计特征和 LDA 特征一起计算句子权重;吴仁守等人 提
         出一种方法将新闻事件划分为多个不同的子主题,在考虑时间演化的基础上同时考虑子主题之间的主题演化,
         最后将新闻标题作为摘要输出.还有很多研究者提出了一些基于图的方法                           [8−11] ,将文本表征成一张图,图中使用
         句子或其他单元作为顶点,用边连接两个有相似性或者关联关系的顶点,使用各种方法计算句子相似度或关联
                                                                                [8]
         关系来构建边.典型的有 Mani 等人在 1997 年最早使用图模型进行多文档摘要任务的研究 .Mihalcea 等人在基
                                                                [9]
         于 PageRank 算法的基础上,提出了一种基于图排序的 TextRank 模型 .Li 等人               [10] 利用主题和句子之间的关系,
         将主题模型集成到图排序中.Yasunaga 等人           [11] 提出一种图卷积的多文档摘要方法,统计句子中出现的动名词组
         合数、位置信息等特征来进行构图,然后用图卷积的方法对句子进行分类.
             基于统计的摘要方法虽然实现简单且有一定效果,但对于句子的打分一般都是比较孤立的,忽略了文本结
         构信息、尤其是句子与句子之间的关联关系.基于主题模型的方法一般针对没有特定主题的多文档摘要任务,
         不适合主题明确的案件舆情摘要.基于图的方法虽然可以较好地表征句子间的关联关系,但构图方法一般是通
         用方法,不涉及特定要素或关键词之间的关联关系.
             以上方法无论是基于统计、主题模型和图模型的,多是通用领域的无监督多文档摘要方法.针对案件舆情
         这一特定领域问题,需要更好地考虑案件主题的相关信息以及跨文档句子之间的关联关系.同一案件相关的多
         篇新闻文本构成一个文本簇,具有与特定案件相关的主题,这一主题可以通过一些案件要素来进行表征.如表 1
         所示,在“奔驰女车主维权案”中,案发地、涉案主体、案件描述:“西安、奔驰 4s 店、女车主、利之星、发动机
         漏油、消费者维权”等关键词就是该案件的案件要素,代表其主题信息.可以看出:这些案件要素贯穿于多篇新闻
         文本,共现于和案件主题相关的句子当中,并且集中出现在参考摘要中,对于句子关系的表征和摘要生成的准确
         性都有着重要的作用.又因为句子都是词的集合,因此在抽取句子形成摘要的过程中,需考虑异构的句子关联图
         特征:借鉴基于统计的方法,引入词节点来得到句子的特征表示,借助案件要素节点来加强与案件主题相关的句
         子间的关联关系,然后再学习这些关系来对句子的重要性进行评价.在如何对图进行学习方面,借鉴 Yao 等人提
         出的一种基于图卷积的文本分类方法              [12] 使用两层图卷积神经网络来对图中节点的特征进行学习,可以很好地
         学习到图中的结构信息.针对以上分析,本文探索在句子关联图中用词节点和案件要素节点强化句子间关联关
         系的表征,研究使用图卷积的方法预测句子的得分,然后经过去重和重排序进而得到摘要.
             本文的主要贡献总结如下:
             1)   提出在案件舆情领域进行多文档摘要的研究探索,创新性地引入案件要素信息来指导摘要句的抽取;
   161   162   163   164   165   166   167   168   169   170   171