Page 172 - 《软件学报》2021年第12期
P. 172
3836 Journal of Software 软件学报 Vol.32, No.12, December 2021
3) 对比“Manifold-Ranking”和“Query+MR”的结果可以看出,引入案件要素作为查询条件来指导摘要生
成是有作用的;
4) 对比“句子+词+GCN”和本文模型的 ROUGE-1 和 ROUGE-2,本文模型分别提升了 3.37 和 2.92,说明在
案件舆情领域,融合案件要素构建句子关联图的方法是有效的,能够很好地表征跨文档句子之间的关
联关系,对于指导抽取出更贴近多文档主题的摘要句有着重要作用.
Table 4 Comparison of experimental results between our model and the baselines
表 4 本文模型与基准模型实验对比结果
模型 ROUGE-1 ROUGE-2 ROUGE-L
Centroid 30.50 8.66 18.34
LDA 31.29 12.33 19.55
Submodular 31.39 10.88 20.19
TextRank 31.40 8.11 15.95
Manifold-Ranking 31.72 5.54 13.45
LexPageRank 32.71 9.71 18.83
句子+词+GCN 33.20 14.10 22.86
Query+MR 34.88 13.72 21.44
ClusterCMRW 35.49 11.65 19.11
LEAD 36.14 12.22 25.06
本文模型 36.57 17.02 26.31
第 2 组实验研究了使用图卷积进行句子分类时,句子的不同分类数目对于摘要质量的影响.设置 2,5,10
和 20 等 4 种不同的句子分类数目,选取 ROUGE-1,ROUGE-2 和 ROUGE-L 作为评价指标,实验结果见表 5.
Table 5 Comparison experiments of different classification numbers
表 5 不同分类数目对比实验
分类数目 ROUGE-1 ROUGE-2 ROUGE-L
2 34.82 15.63 24.49
5 35.49 16.49 23.37
10 36.57 17.02 26.31
20 31.24 14.35 22.64
根据表 5 的实验结果可以看出:在句子分类数目为 10 的时候取得的摘要效果最好,分类数目较低会略微降
低摘要质量,分类数目过高会严重降低摘要的质量.分析可能是因为分类数目的不同导致了句子分类准确率的
不同.
第 3 组实验研究了不同相似度计算方法对摘要性能的影响,分别使用 rouge(0.8),jaccard(0.8),tf-idf(0.8)和
word2vec(0.9)等 4 种.其中,基于 word2vec 使用词向量+average pooling 来表示句子信息.选取 ROUGE-1,
ROUGE-2 和 ROUGE-L 作为评价指标,实验结果见表 6.
Table 6 Comparison experiments of different similar computing methods
表 6 不同相似度计算方法对比实验
方法 ROUGE-1 ROUGE-2 ROUGE-L
rouge 35.69 15.23 22.47
jaccard 35.69 15.23 22.47
tf-idf 35.69 15.23 22.47
word2vec 36.57 17.02 26.31
根据表 6 的实验结果可以看出:前 3 种相似度计算方法得到的结果一致.可能的原因是:在本实验中,得分较
高的几个句子之间的差异性是比较大的,这 3 种方法对句子差异性的敏感程度是相似的.Word2vec 的方法效果
略好一点.
如表 7 的实例分析中,从测试集中选取了“快递员遭投诉自杀”案件,针对该案件的部分基准模型生成的摘
要进行实例分析.
根据表 7 可以看出: