Page 152 - 《软件学报》2025年第5期

P. 152

2052 软件学报 2025 年第 36 卷第 5 期

试集; Azure 项目中版本 3.0.0.8 作为训练集, 版本 4.5.0.2 作为测试集; Maven 项目中版本 2.0.0 作为训练集, 版本
3.2.2 作为测试集.

表 1 实验数据集信息

数据集版本号粒度类别节点数边数
package 107 409
1.0.0 class 1 563 6 564
function 17 421 40 792
package 70 309
Ant 1.4.0 class 1 209 4 674
function 15 329 29 268
package 71 274
1.7.6 class 1 261 4 717
function 15 756 30 362
package 417 2 999
3.0.0.8 class 4 945 26 827
function 25 119 46 753
package 476 3 815
Azure 3.7.0.1 class 7 062 36 030
function 36 589 70 636
package 476 4 461
4.5.0.2 class 7 662 43 985
function 39 711 76 618
package 109 561
2.0.0 class 706 2 618
function 7 803 15 754
package 201 939
Maven 2.6.1 class 1 786 6 007
function 19 386 38 421
package 299 1 612
3.2.2 class 4 736 17 332
function 42 613 79 044

3.2.2 评价指标与基准方法
交互关系预测任务中常用曲线下面积 (AUC) 和平均精度 (AP) 值作为评价指标 [39] . 选择这两个作为评价指标
的优势有: (1) 适用于不平衡数据集. AUC 和 AP 不受类别不平衡的影响, 对于正负样本分布不均匀的数据集仍然
能够提供较为客观的评估 [40] . (2) 对排序任务敏感. AUC 和 AP 都对模型输出的排序任务敏感. 在交互关系预测中,
对于确定是否存在连边关系的样本, 模型输出的分数越高的样本越有可能是正样本, 这与 AUC 和 AP 的排序敏感
性相契合. (3) 适用于样本比例变化. 在交互关系预测中, 正样本和负样本的比例可能会随着任务和数据集的不同
而变化. AUC 和 AP 对于不同正负样本比例的情况都相对鲁棒, 这也契合本文后续对跨版本交互关系预测任务的
研究. 对于二者的计算公式:

1
TP×TN + × FP×(FP−1)
AUC@G = 2 (12)
P× N

( )
∑
TP k
AP@G = ×∆Recall k (13)
k TP k + FP k
其中, G 表示粒度类别, 分别为 package、class 和 function. TP 为真正例数, 表示模型正确地预测了正类别的样本
数量, 即真实为正, 模型也预测为正的样本数量; FP 为假正例数, 表示模型错误地将负类别的样本预测为正类别,

147 148 149 150 151 152 153 154 155 156 157