Page 170 - 《软件学报》2021年第12期
P. 170

3834                                Journal of Software  软件学报 Vol.32, No.12, December 2021

                                                    1  − 1
                                                   −
                                                    2
                                               A    = D AD  2                                 (9)
             将节点的特征矩阵 X 初始化为一个和邻接矩阵 A 一样大小的单位矩阵,相当于使用 one-hot 向量表示节点
         的特征.
             在第 1 层图卷积网络中:

                                             L (1)  =  ReLU (AXW 1 )                         (10)

               (1)
         其中,L 表示第 1 层的输出, A 是规范化的邻接矩阵,X 是特征矩阵,W 1 是参数矩阵,激活函数使用 ReLU.在第 2
         层图卷积网络中,使用 softmax 进行分类,如公式(11)所示:

                                                        (1)
                                           L (2)  =  softmax (AL W  )                        (11)
                                                           2
             采用交叉熵作为模型的损失函数:
                                            loss =−∑  y  ln L (2)                            (12)
                                                    ∈
                                                    iS  i  i
                                                                   (2)
         其中,s 是训练集中参与计算损失的所有句子,y i 表示第 i 个句子的标签, L 表示第 i 个句子的预测结果.通过两
                                                                   i
         次图卷积操作后,可以得到每一个句子节点的分类结果,表示每一个句子的得分.
         4    摘要生成
             摘要句既要反映文档的中心思想,又要具有低冗余性和一定的时序关系.通过前面的方法得到每一个句子
         评分之后,需要从中选取得分最高的几个句子,对其进行去重和排序,具体流程如下所示.
             (1)  对于测试集中不同的文本簇,分别进行摘要生成;
             (2)  对于一个文本簇,首先选取一个得分最高的句子加入候选摘要句集合中;
             (3)  然后选取下一个句子和候选摘要句集合中的每一个句子计算相似性,其值若小于相似性阈值,则将该
                 句子加入候选摘要句集合中;
             (4)  重复第(2)步的操作,直到候选摘要句集合长度超过摘要预期长度;
             (5)  最后再对候选摘要句集合中的句子按照文档的爬取顺序(代表文章发表的时序)以及句子在文档中出
                 现的顺序排序,得到最终的多文档摘要.
         5    实   验


         5.1   数据集
             本文针对 50 个案件,构造 50 组案件要素,使用爬虫程序从互联网上搜集相关新闻,对数据清洗去噪,得到 50
         个文本簇.每个文本簇包含 10 篇文档.对每个文本簇人工撰写摘要,最终构建出案件舆情摘要数据集.见表 3.
                                              Table 3  Dataset
                                                表 3   数据集

                                     案件数    文档数    句子数    句子平均长度     摘要长度
                               训练集     30    300    7 292    49.5      186.4
                               验证集     10    100    3 014    50.3      209.5
                               测试集     10    100    2 827    44.3      185.1

         5.2   评价标准
             本文采用自动摘要任务中常用的一种评价指标 ROUGE 来作为介绍评价指标.ROUGE 是基于摘要中 n 元
         语法(n-gram)的共现信息来评价摘要的一种方法,包括 ROUGE-1,ROUGE-2 等.ROUGE-L 和 ROUGE-N 相似,
         是一种基于最长公共子序列的评价方法.ROUGE 值越高,说明摘要效果越好.例如,ROUGE-N 的一般计算方法
         见公式(13):
   165   166   167   168   169   170   171   172   173   174   175