Page 171 - 《软件学报》2021年第12期
P. 171

韩鹏宇  等:案件要素句子关联图卷积的案件舆情摘要方法                                                      3835


                                               ∑       ∑  Count match (gram n  )

                                ROUGE -N =  s∈  (Referemce Summaries gram ∈  )  n s          (13)
                                                ∑       ∑   Count (gram n )
                                           s∈  (Reference Summaries gram ∈  )  n s
         其中,分子表示模型输出的摘要和参考摘要中同共现的 n-gram 的个数,分母则表示参考摘要中的 n-gram 个数.

         5.3   实验设置
             实验采用 2 层图卷积网络,特征矩阵每一行使用 one-hot 向量来初始化,第 1 层输出的节点特征向量为 200
         维,第 2 层输出的节点分类向量为 10 维.Dropout 设置为 0.5,学习率设置为 0.02,训练轮次设置为 400,提前截至
         的容忍度设置为 12,摘要预期长度设置为 200.
             本文共设置了 3 组对比实验和 1 个实例分析.
             •   第 1 组对比实验对比了本文模型和 10 个基准模型的性能,其中包括未融入案件要素的消融实验:“句子
                +词+GCN”;
             •   第 2 组对比实验研究了不同句子分类数目对生成摘要质量的影响,设置 2,5,10 和 20 等 4 种不同的分
                类数目,使用本文模型分别进行实验;
             •   第 3 组实验研究了去冗余步骤中,不同相似度计算方法对摘要的影响,其中,rouge 方法阈值设置为
                0.8、jaccard 方法阈值设置为 0.8、tf-idf 方法阈值设置为 0.8 和 word2vec 方法阈值设置为 0.9;
             •   实例分析选取了针对“快递员遭投诉自杀”案件的摘要实例进行对比分析.
         5.4   基准模型
             本文共选择了 10 个基准模型,分别在案件舆情摘要数据集上进行实验,得到 ROUGE-1,ROUGE-2 和
         ROUGE-L 这 3 种评分.基准模型包括 LEAD,Centroid,LexPageRank,TextRank,Submodular,ClusterCMRW,Query+
         MR,LDA,Manifold-Ranking 和“句子+词+GCN”,其中,部分代码由开源工具包 PKUSUMSUM 提供.
             •   LEAD 是一种依靠句子在文章中的位置来抽取摘要的方法,研究表明,文章中的重要信息很大概率会
                出现在文章开头部分;
             •   Manifold-Ranking [13] 是一种类似 PageRank 的方法,利用流行排序进行多文档摘要;
             •   Query+MR 在 Manifold-ranking 模型的基础上增加了一个案件要素集合作为查询句,来对句子节点之
                间的权重进行调整,然后得到摘要;
             •   LDA 方法通过使用 LDA 对文本簇进行主题聚类,然后寻找含有主题信息最多的句子作为摘要;
             •   Centroid [14] 是一种基于质心的多文档摘要方法,通过寻找中心词最多的句子来得到摘要;
             •   ClusterCMRW [15] 是一种基于马尔科夫链和随机游走的多文档摘要方法,利用文档集中句子之间的链
                接关系来生成摘要;
             •   Submodular [16] 利用次模函数的单调递减特性来抽取句子作为摘要;
                                      [9]
             •   LexPageRank [17] 和 TextRank 都是一种基于图的关键词提取算法,将句子视为节点,通过计算图中每个
                节点的得分,来选择得分最高的几个句子作为摘要;
             •   “句子+词+GCN”表示未融入案件要素的图卷积神经网络方法.
         5.5   实验结果分析
             第 1 组实验为了验证本文模型的有效性,与 10 个基准模型进行了对比实验,其中,和“句子+词+GCN”对比以
         验证融入案件要素的有效性.选取 ROUGE-1,ROUGE-2 和 ROUGE-L 这 3 种评分,实验结果见表 4.
             根据表 4 的实验结果可以看出:
             1)   在采用 ROUGE-1 的评价方法中,本文模型和其他基准模型相比,有 0.43~6.07 的提升,说明了本文模型
                 的优越性;
             2)   对比 TextRank,LexPageRank 和本文模型,虽然同为基于图的方法,但是图卷积比这两种方法具有显著
                 的效果提升,充分说明了图卷积方法在多文档摘要任务上的优越性;
   166   167   168   169   170   171   172   173   174   175   176