Page 415 - 《软件学报》2025年第5期
P. 415

王笑 等: 面向属性网络社团检测的度修正广义随机块模型                                                     2315



                 回率;   S  是社团检测算法检测的社团中含有相同标签的节点集合,                 T  是真实网络社团中含有相同标签的节点集合,
                 |·| 表示集合中元素的数量. PWF      的取值范围也是      [0,1] . 值越大, 说明社团检测算法划分的效果越好.
                    (3) 准确率  (ACC)
                    文献  [38] 提出的  ACC  是用来度量正确划分的节点百分比的. 假设一个网络有                 n 个节点, 对于每一个节点,       l i
                                               r i  是真实的社团标签, 其定义如公式       (16) 所示:
                 表示社团检测算法检测到的社团标签,

                                                         1  n ∑
                                                   ACC =     I (r i ,map(l i ))                      (16)
                                                         n
                                                          i=1
                                                                I(x,y) = 0 map(l i ) 是一个映射函数, 它将每个社团标
                 其中,    I(x,y) 是一个指示函数, 如果   x = y , 则   I(x,y) = 1 ; 否则    .
                 签  l i  映射为等价的真实社团标签. ACC     的取值范围依然是      [0,1] . 值越大, 说明社团检测算法划分的效果越好.

                 5.3   社团数  c 对社团检测精度的影响分析
                    利用  DCGSB  模型进行社团检测时, 社团数         c 的不同会影响社团检测精度. 因此, 本节分别取   =2, 3, 4, 5, 6, 7,
                                                                                            c
                 8, 9, 10, 在数据集  Cornell, Texas, Washington, Wisconsin, Cora 以及  Citeseer 上进行了  10  次实验, 分别计算这  10
                 次实验的   NMI、PWF   以及  ACC  的平均值, 并绘制成折线图, 如图       2  所示.

                    0.55                  NMI    0.55                  NMI    0.55                  NMI
                                          PWF
                    0.50                  ACC    0.50                  PWF    0.50                  PWF
                                                                                                    ACC
                                                                       ACC
                                                 0.45
                    0.45
                   评价指标的值  0.40                 评价指标的值  0.40                 评价指标的值  0.30
                                                                              0.45
                                                                              0.40
                    0.35
                                                 0.35
                                                                              0.35
                    0.30
                                                 0.30
                    0.25
                    0.20                         0.25                         0.25
                                                 0.20                         0.20
                    0.15
                                                 0.15                         0.15
                         2    4   6    8   10         2    4   6    8   10         2    4   6   8   10
                               社团个数 c                       社团个数 c                       社团个数 c
                               (a) Cornell                   (b) Texas                  (c) Washington
                    0.65                          0.6                          0.6
                                           NMI                          NMI                         NMI
                    0.60                   PWF                          PWF                         PWF
                                           ACC    0.5                   ACC    0.5                  ACC
                    0.55                          0.4                          0.4
                   评价指标的值  0.45                  评价指标的值  0.3                  评价指标的值  0.3
                    0.50
                    0.40
                    0.35
                    0.30                          0.2                          0.2
                    0.25                          0.1                          0.1
                    0.20
                         2    4   6    8   10         2    4   6    8   10         2   4    6   8   10
                               社团个数 c                        社团个数 c                      社团个数 c
                              (d) Wisconsin                  (e) Cora                    (f) Citeseer
                                                    c 对不同网络社团检测精度的影响
                                           图 2 参数

                    由图  2  可以看出, 在数据集     Cornell, Texas, Washington, Wisconsin, Cora 以及  Citeseer 上, 随着社团数量  c 的增
                 加, DCGSB  模型社团检测的评价指标        NMI、PWF   和  ACC  都呈现“先上升后下降”的趋势, 并且每个网络在真实社
                 团数量处取到最大值. 因此, 在接下来的实验中, 我们取社团个数                  c 等于真实网络社团数量.
                    如果不知道真实社团数量时,          c 从  2  开始, 每次增加  1, 分别计算给定网络上的       NMI、PWF  以及  ACC, 直到评
                                                                                    c
                 价指标出现“拐点”, 此时所对应的         c 值, 就是社团个数. 也可以采用其他方法确定社团数   .

                 5.4   节点度对社团检测精度的影响分析
                    为了验证    DCGSB  模型中节点度对社团检测精度的影响, 本文对节点度做了消融实验. 在表                       1  所示的  3  个网
                 络数据集上, 分别对网络拓扑信息和节点属性建模时, 没有引入节点度的属性网络广义随机块模型                                CGSB  与加了
   410   411   412   413   414   415   416   417   418   419   420