Page 172 - 《软件学报》2021年第12期
P. 172

3836                                Journal of Software  软件学报 Vol.32, No.12, December 2021

             3)   对比“Manifold-Ranking”和“Query+MR”的结果可以看出,引入案件要素作为查询条件来指导摘要生
                 成是有作用的;
             4)   对比“句子+词+GCN”和本文模型的 ROUGE-1 和 ROUGE-2,本文模型分别提升了 3.37 和 2.92,说明在
                 案件舆情领域,融合案件要素构建句子关联图的方法是有效的,能够很好地表征跨文档句子之间的关
                 联关系,对于指导抽取出更贴近多文档主题的摘要句有着重要作用.
                    Table 4    Comparison of experimental results between our model and the baselines
                                    表 4   本文模型与基准模型实验对比结果
                            模型               ROUGE-1        ROUGE-2         ROUGE-L
                           Centroid           30.50           8.66            18.34
                            LDA               31.29           12.33           19.55
                          Submodular          31.39           10.88           20.19
                           TextRank           31.40           8.11            15.95
                        Manifold-Ranking      31.72           5.54            13.45
                         LexPageRank          32.71           9.71            18.83
                         句子+词+GCN             33.20           14.10           22.86
                          Query+MR            34.88           13.72           21.44
                         ClusterCMRW          35.49           11.65           19.11
                            LEAD              36.14           12.22           25.06
                           本文模型               36.57           17.02           26.31

             第 2 组实验研究了使用图卷积进行句子分类时,句子的不同分类数目对于摘要质量的影响.设置 2,5,10
         和 20 等 4 种不同的句子分类数目,选取 ROUGE-1,ROUGE-2 和 ROUGE-L 作为评价指标,实验结果见表 5.
                           Table 5  Comparison experiments of different classification numbers
                                         表 5   不同分类数目对比实验
                              分类数目           ROUGE-1      ROUGE-2      ROUGE-L
                                 2             34.82        15.63        24.49
                                 5             35.49        16.49        23.37
                                 10            36.57        17.02        26.31
                                 20            31.24        14.35        22.64
             根据表 5 的实验结果可以看出:在句子分类数目为 10 的时候取得的摘要效果最好,分类数目较低会略微降
         低摘要质量,分类数目过高会严重降低摘要的质量.分析可能是因为分类数目的不同导致了句子分类准确率的
         不同.
             第 3 组实验研究了不同相似度计算方法对摘要性能的影响,分别使用 rouge(0.8),jaccard(0.8),tf-idf(0.8)和
         word2vec(0.9)等 4 种.其中,基于 word2vec 使用词向量+average pooling 来表示句子信息.选取 ROUGE-1,
         ROUGE-2 和 ROUGE-L 作为评价指标,实验结果见表 6.
                         Table 6    Comparison experiments of different similar computing methods
                                      表 6   不同相似度计算方法对比实验
                             方法             ROUGE-1         ROUGE-2        ROUGE-L
                             rouge            35.69          15.23          22.47
                            jaccard           35.69          15.23          22.47
                             tf-idf           35.69          15.23          22.47
                           word2vec           36.57          17.02          26.31

             根据表 6 的实验结果可以看出:前 3 种相似度计算方法得到的结果一致.可能的原因是:在本实验中,得分较
         高的几个句子之间的差异性是比较大的,这 3 种方法对句子差异性的敏感程度是相似的.Word2vec 的方法效果
         略好一点.
             如表 7 的实例分析中,从测试集中选取了“快递员遭投诉自杀”案件,针对该案件的部分基准模型生成的摘
         要进行实例分析.
             根据表 7 可以看出:
   167   168   169   170   171   172   173   174   175   176   177