Page 414 - 《软件学报》2025年第5期
P. 414

2314                                                       软件学报  2025  年第  36  卷第  5  期


                 5   实验结果及分析

                 5.1   数据集
                    本文选取    3  个不同规模的真实属性网络数据集            WebKB (Cornell, Texas, Washington, Wisconsin) , Cora  和
                 Citeceer 来检验  DCGSB  模型的划分效果. 属性网络数据集的基本特征如表              1  所示, 其中  n 和  m 分别为节点数和边
                               c
                 数;  K  为属性种类;   为社团个数.

                                                  表 1 属性网络数据集特征

                            Datasets               n          m          K         c         Structure
                                   Cornell        195        304        1 703      5        disassortative
                                    Texas         187        328        1 703      5        disassortative
                     WebKB
                                  Washington      230        446        1 703      5        disassortative
                                  Wisconsin       265        530        1 703      5        disassortative
                      Cora           -           2 708       5 429      1 433      7         assortative
                     Citeseer        -           3 312       4 723      3 703      6         assortative

                    1) WebKB  数据集  [33] . WebKB  是一种引文网络, 由康奈尔大学     (Cornell), 得克萨斯大学  (Texas), 华盛顿大学
                 (Washington) 以及威斯康星大学    (Wisconsin) 这  4  所大学的网页及网页间的链接组成, 共有        877  个节点, 表示所有
                 的网页; 1 608  条边, 表示网页之间的超链接; 网络中的网页            (即节点) 被分成学院主页、课程主页、学生主页、员
                 工主页以及研究项目主页         5  种类型. 每个节点都由一个        1 703  维的属性向量构成. 此外, WebKB     数据集包含的     4
                 个网络均为混合结构.
                    2) Cora 数据集  [34] . Cora 是由  2 708  个节点和  5 429  条边组成的科技文献引文网络. 网络中所有文献       (即节点)
                 被分成神经网络、强化学习、规则学习、基于案例的推理、概率方法、遗传算法以及理论知识这                                  7  种类型.
                    3) Citeseer 数据集  [35] . 该数据集是学术引用网络, 包含   3 312  个节点, 表示所有的学术论文; 4 723    条边, 表示各
                 论文之间的引用关系; 网络中所有的论文             (即节点) 被分成以下      6  种类型, 即代理人   (agents)、人工智能、数据库、
                 人机交互、信息检索以及机器学习.

                 5.2   评价指标
                    为了评估     DCGSB  模型在真实网络上的检测效果, 本文采用社团检测常用的评价指标标准化互信息
                 (normalized mutual information, NMI) [36] 、F  测度  (pairwise F-measure, PWF) [37] 以及准确率  (accuracy, ACC) [38] 对其
                 进行评估.
                    (1) 标准化互信息    (NMI)
                    文献  [36] 提出的  NMI 是根据混淆矩阵判断社团划分后信息保留的完整程度. 其定义如公式                      (14) 所示:

                                                                   (   )
                                                            c 2
                                                                    N rs N
                                                         c 1 ∑ ∑
                                                      −2      N rs log
                                                                    N r N s
                                                         r=1  s=1
                                              NMI =                                                  (14)
                                                                 c 2
                                                    c 1 ∑  (  ) ∑      (  )
                                                            N r         N s
                                                      N r log  +   N s log
                                                            N           N
                                                    r=1         s=1
                                                                                 N r 、N s  分别表示社团   、社团
                                                                                                  r
                 其中,   c 1  表示真实社团数,   c 2  表示社团检测算法划分的社团数,      N  是网络节点总数,
                                                                     s
                                            r
                 s 的节点数,    N rs  表示本该属于社团   的节点却被错误地划分到社团   的节点数. NMI 的取值范围为                [0,1] . 值越大,
                 表示算法社团划分效果越好.
                    (2) F  测度  (PWF)
                    文献  [37] 提出的  PWF  是将精确度  (Precision) 和召回率  (Recall) 的概念归到单个评估中, 其定义如公式      (15) 所示:

                                                        2×Precision×Recall
                                                  PWF =                                              (15)
                                                         Precision+Recall
                 其中,   Precision = |S ∩T|/|S | 是社团检测算法检测结果的精确度,   Recall = |S ∩T|/|T| 是社团检测算法检测结果的召
   409   410   411   412   413   414   415   416   417   418   419