Page 409 - 《软件学报》2025年第9期
P. 409

4320                                                       软件学报  2025  年第  36  卷第  9  期


                 法预测性能的影响; 第      4  部分是分析   SAMG-LP  算法训练时间消耗.

                 3.1   实验数据集
                    本文在公开数据集       Haggle、LH10、LyonSchool 和  workplace [33,34] 上进行实验. 将数据集按照  7:1:2  的比例划
                 分成训练集、验证集和测试集. 这些数据集都是社交网络数据集, 其统计信息如表                        1 所示. 这些数据集简要描述如下.

                                                   表 1 数据集的统计信息

                                数据集               节点数             链接总数              快照数量
                                Haggle             274             28 244             70
                                 LH10              687             150 126            71
                               LyonSchool          497            1 048 576           473
                               workplace           973             9 827              89

                    (1) Haggle 通过无线设备记录人与人的联系, 节点表示人, 节点间的链接表示他们之间有过接触.
                    (2) LH10、LyonSchool 都是使用   RFID 技术来识别人与人之间的接触, 其中             LH10  数据收集地点是医院,
                 LyonSchool 数据收集地点是小学.
                    (3) workplace 表示工作场所中人与人之间交流的动态网络.

                 3.2   评价指标及基准模型
                    本文使用    3  种常用的性能指标来比较不同的链路预测算法, 分别是                 AUC、MR  [35] 和  Recall. AUC  反映了算法
                 的预测准确率, Recall 反映了算法对正样本的识别能力, 二者均为指标值越大效果越好. 而                       MR  反映了算法预测错
                 误的比例, 指标值越小效果越好.
                    为了评估所提出算法的预测性能, 本文将              SAMG-LP  算法与  7  种具有代表性的链路预测算法进行比较, 分为
                 基于相似性指数的方法、基于矩阵分解的方法和基于深度学习的方法. 基于相似性指数的方法分为两类: 第                                 1 类是
                 直接构造相似性指标的        PR-CN  算法  [7] ; 第  2  类是以相似性指数作为特征, 通过分类器进行链路预测的            NC-LGBM
                 算法  [8] . 基于矩阵分解的方法包括: 基于静态图链路预测的            LPANMF  [15] 非负矩阵分解算法和基于动态图链路预测
                 的  MljFE [11] 非负矩阵分解算法. 基于深度学习的链路预测方法分为两类: 第               1  类是提取时空特征进行链路预测的
                 GC-LSTM [21] 和  GCN_MA [28] ; 第  2  类是从图像生成角度完成链路预测的   SRG  算法  [27] .
                    所有实验均在     Ubuntu 服务器上进行    (CPU: Intel(R) Xeon(R) Gold 5118 CPU @ 2.30 GHz, GPU: NVIDIA GeForce
                 RTX 2080Ti). 实验均采用  10  个历史时间步窗口作为社交网络快照序列的长度, 取                5  次随机实验的平均值作为实
                 验结果. 对于静态图链路预测算法, 使用最后一个网络快照作为算法的输入. 所有基准算法都遵循他们论文中的最
                 佳参数. 而对于    SAMG-LP  算法而言, 图移动平均的项数设置为           4, 时间衰减函数的参数设置为         0.1, 时间注意力网
                 络和基于掩码注意力机制的图卷积网络中的所有隐藏层维度均设置为                         32, 融合注意力网络除     MLP 最后一层维度
                 设置为节点数外, 其余隐藏层维度均设置为              64, 损失函数惩罚系数设置为        2, Adam  优化器的学习率为     0.000 5, 训
                 练迭代次数设置为       300, 实验基于  PyTorch 2.0.0.

                 3.3   对比实验结果分析
                    本节分别在     4  个社交网络数据集上对比了本文提出的            SAMG-LP  和基准算法的     AUC、MR   和  Recall. 实验结
                 果如表   2  所示, 其中加粗部分表示最优结果. 由表          2  可知, 相比于  7  种基准算法, 本文算法几乎在所有指标上都取
                 得了最优结果. 其中      SAMG-LP  在  LH10  和  workplace 数据集上的预测性能有较为明显的提升. 对于         LH10  数据集,
                 SAMG-LP  在  AUC、MR  和  Recall 指标上分别取得了     3.4%–16.9%、13.3%–72.4%  和  2.5%–30.0%  的性能提升;
                 对于  workplace  数据集, SAMG-LP  在  AUC、MR  和  Recall 指标上分别取得了    3.7%–55.9%、16.9%–94.6%  和
                 4.6%–90.3%  的性能提升.
                    1) 与  2  种基于相似性指数的方法相比, SAMG-LP         在  AUC、MR  和  Recall 指标上至少取得了     4.5%、14.7%
                 和  2.5%  的性能提升. 这是由于社交网络往往具有复杂的时空特征, 不能简单地通过一种或几种相似性指数进行描
                 述. 这使得混合型相似性指数         PR-CN  在  4  种数据集中的表现较差. 虽然基于机器学习分类器的相似性指数算法
   404   405   406   407   408   409   410   411   412   413   414