Page 415 - 《软件学报》2025年第5期
P. 415
王笑 等: 面向属性网络社团检测的度修正广义随机块模型 2315
回率; S 是社团检测算法检测的社团中含有相同标签的节点集合, T 是真实网络社团中含有相同标签的节点集合,
|·| 表示集合中元素的数量. PWF 的取值范围也是 [0,1] . 值越大, 说明社团检测算法划分的效果越好.
(3) 准确率 (ACC)
文献 [38] 提出的 ACC 是用来度量正确划分的节点百分比的. 假设一个网络有 n 个节点, 对于每一个节点, l i
r i 是真实的社团标签, 其定义如公式 (16) 所示:
表示社团检测算法检测到的社团标签,
1 n ∑
ACC = I (r i ,map(l i )) (16)
n
i=1
I(x,y) = 0 map(l i ) 是一个映射函数, 它将每个社团标
其中, I(x,y) 是一个指示函数, 如果 x = y , 则 I(x,y) = 1 ; 否则 .
签 l i 映射为等价的真实社团标签. ACC 的取值范围依然是 [0,1] . 值越大, 说明社团检测算法划分的效果越好.
5.3 社团数 c 对社团检测精度的影响分析
利用 DCGSB 模型进行社团检测时, 社团数 c 的不同会影响社团检测精度. 因此, 本节分别取 =2, 3, 4, 5, 6, 7,
c
8, 9, 10, 在数据集 Cornell, Texas, Washington, Wisconsin, Cora 以及 Citeseer 上进行了 10 次实验, 分别计算这 10
次实验的 NMI、PWF 以及 ACC 的平均值, 并绘制成折线图, 如图 2 所示.
0.55 NMI 0.55 NMI 0.55 NMI
PWF
0.50 ACC 0.50 PWF 0.50 PWF
ACC
ACC
0.45
0.45
评价指标的值 0.40 评价指标的值 0.40 评价指标的值 0.30
0.45
0.40
0.35
0.35
0.35
0.30
0.30
0.25
0.20 0.25 0.25
0.20 0.20
0.15
0.15 0.15
2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
社团个数 c 社团个数 c 社团个数 c
(a) Cornell (b) Texas (c) Washington
0.65 0.6 0.6
NMI NMI NMI
0.60 PWF PWF PWF
ACC 0.5 ACC 0.5 ACC
0.55 0.4 0.4
评价指标的值 0.45 评价指标的值 0.3 评价指标的值 0.3
0.50
0.40
0.35
0.30 0.2 0.2
0.25 0.1 0.1
0.20
2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
社团个数 c 社团个数 c 社团个数 c
(d) Wisconsin (e) Cora (f) Citeseer
c 对不同网络社团检测精度的影响
图 2 参数
由图 2 可以看出, 在数据集 Cornell, Texas, Washington, Wisconsin, Cora 以及 Citeseer 上, 随着社团数量 c 的增
加, DCGSB 模型社团检测的评价指标 NMI、PWF 和 ACC 都呈现“先上升后下降”的趋势, 并且每个网络在真实社
团数量处取到最大值. 因此, 在接下来的实验中, 我们取社团个数 c 等于真实网络社团数量.
如果不知道真实社团数量时, c 从 2 开始, 每次增加 1, 分别计算给定网络上的 NMI、PWF 以及 ACC, 直到评
c
价指标出现“拐点”, 此时所对应的 c 值, 就是社团个数. 也可以采用其他方法确定社团数 .
5.4 节点度对社团检测精度的影响分析
为了验证 DCGSB 模型中节点度对社团检测精度的影响, 本文对节点度做了消融实验. 在表 1 所示的 3 个网
络数据集上, 分别对网络拓扑信息和节点属性建模时, 没有引入节点度的属性网络广义随机块模型 CGSB 与加了