Page 414 - 《软件学报》2025年第5期
P. 414
2314 软件学报 2025 年第 36 卷第 5 期
5 实验结果及分析
5.1 数据集
本文选取 3 个不同规模的真实属性网络数据集 WebKB (Cornell, Texas, Washington, Wisconsin) , Cora 和
Citeceer 来检验 DCGSB 模型的划分效果. 属性网络数据集的基本特征如表 1 所示, 其中 n 和 m 分别为节点数和边
c
数; K 为属性种类; 为社团个数.
表 1 属性网络数据集特征
Datasets n m K c Structure
Cornell 195 304 1 703 5 disassortative
Texas 187 328 1 703 5 disassortative
WebKB
Washington 230 446 1 703 5 disassortative
Wisconsin 265 530 1 703 5 disassortative
Cora - 2 708 5 429 1 433 7 assortative
Citeseer - 3 312 4 723 3 703 6 assortative
1) WebKB 数据集 [33] . WebKB 是一种引文网络, 由康奈尔大学 (Cornell), 得克萨斯大学 (Texas), 华盛顿大学
(Washington) 以及威斯康星大学 (Wisconsin) 这 4 所大学的网页及网页间的链接组成, 共有 877 个节点, 表示所有
的网页; 1 608 条边, 表示网页之间的超链接; 网络中的网页 (即节点) 被分成学院主页、课程主页、学生主页、员
工主页以及研究项目主页 5 种类型. 每个节点都由一个 1 703 维的属性向量构成. 此外, WebKB 数据集包含的 4
个网络均为混合结构.
2) Cora 数据集 [34] . Cora 是由 2 708 个节点和 5 429 条边组成的科技文献引文网络. 网络中所有文献 (即节点)
被分成神经网络、强化学习、规则学习、基于案例的推理、概率方法、遗传算法以及理论知识这 7 种类型.
3) Citeseer 数据集 [35] . 该数据集是学术引用网络, 包含 3 312 个节点, 表示所有的学术论文; 4 723 条边, 表示各
论文之间的引用关系; 网络中所有的论文 (即节点) 被分成以下 6 种类型, 即代理人 (agents)、人工智能、数据库、
人机交互、信息检索以及机器学习.
5.2 评价指标
为了评估 DCGSB 模型在真实网络上的检测效果, 本文采用社团检测常用的评价指标标准化互信息
(normalized mutual information, NMI) [36] 、F 测度 (pairwise F-measure, PWF) [37] 以及准确率 (accuracy, ACC) [38] 对其
进行评估.
(1) 标准化互信息 (NMI)
文献 [36] 提出的 NMI 是根据混淆矩阵判断社团划分后信息保留的完整程度. 其定义如公式 (14) 所示:
( )
c 2
N rs N
c 1 ∑ ∑
−2 N rs log
N r N s
r=1 s=1
NMI = (14)
c 2
c 1 ∑ ( ) ∑ ( )
N r N s
N r log + N s log
N N
r=1 s=1
N r 、N s 分别表示社团 、社团
r
其中, c 1 表示真实社团数, c 2 表示社团检测算法划分的社团数, N 是网络节点总数,
s
r
s 的节点数, N rs 表示本该属于社团 的节点却被错误地划分到社团 的节点数. NMI 的取值范围为 [0,1] . 值越大,
表示算法社团划分效果越好.
(2) F 测度 (PWF)
文献 [37] 提出的 PWF 是将精确度 (Precision) 和召回率 (Recall) 的概念归到单个评估中, 其定义如公式 (15) 所示:
2×Precision×Recall
PWF = (15)
Precision+Recall
其中, Precision = |S ∩T|/|S | 是社团检测算法检测结果的精确度, Recall = |S ∩T|/|T| 是社团检测算法检测结果的召