Page 138 - 《软件学报》2025年第9期

P. 138

谢生龙等: 基于多模态融合的软件缺陷协同分派方法 4049

(1) 采样尺度的敏感性. 实验按照枚举的策略, 依次将 CBT-MF 采样尺度 s 设置为 1、3、5、7、9. 图 4 显示

了在不同采样尺度 s 下, CBT-MF 在 GC、MC 及 MF 数据集的测试集上获得的 Recall@K 和 Hit@K 各 5 个, 共
10 个指标的实验评估结果.

0.012 GC 0.015 GC 0.016 GC 0.020 GC 0.028 GC
MC
MC
MC
MC
MC
0.012
Recall@5 0.009 MF Recall@10 0.009 MF Recall@15 0.012 MF Recall@20 0.012 MF Recall@25 0.021 MF
0.016
0.006
0.008
0.014
0.008
0.006
0.003
0.003 0.004 0.004 0.007
0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
(a) (b) (c) (d) (e)
0.3 GC 0.4 GC GC GC GC
MC MC 0.4 MC 0.4 MC 0.4 MC
MF 0.3 MF 0.3 MF 0.3 MF 0.3 MF
0.2
Hit@5 0.1 Hit@10 0.2 Hit@15 0.2 Hit@20 0.2 Hit@25 0.2
0.1
0.1
0 0 0.1 0 0 0.1 0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
(f) (g) (h) (i) (j)
图 4 不同采样尺度对 Recall@5–Recall@25 和 Hit@5–Hit@25 的影响

从图 4(a)–(e) 显示的 Recall@K 实验结果可以看出, 随着采样尺度 s 的增加, Recall@5–Recall@25 的值也会增
s 增大到一定程度时 ( s, 各个指标并没有
加. 但采样尺度 s = 5), 各个指标达到了最大值. 随后续继续增大采样尺度
相应的提升, 相反地, 出现了下降的趋势. 例如, 在 GC 数据集上, 当采样尺度 s 从 1 增加到 5 时, Recall@10 从 0.003 7
增加到 0.008 2, Recall@20 从 0.004 2 增加到 0.010 9; 而当采样尺度 s 增加到 9 时, 二者分别降到了 0.002 3 和 0.005 4;
此外, 不同数据集之间的结果也有所不同. 例如, 在 Recall@5 指标上, MF 数据集的结果明显优于 GC 和 MC 数据
集, 且在其他 Recall@K 指标上, 3 个数据集之间也存在类似的差异. 这些结果的形成可能与多种因素有关. 首先,
s 可以提升 CBT-MF 对 bug 和开发者的覆盖率, 从而提高了 Recall@K 指标值; 其次, 不同数据集
适当的采样尺度
的特征和分布也会影响评估结果, 例如, MF 数据集密度大, 且其中的 bug 和开发者数量相对能够代表样本的多样
性, 因此在适当的采样尺度影响下, 使 CBT-MF 在其上获得了更好的性能表现; 最后, CBT-MF 中采用聚类和采样
的数据增强方式缓解数据不均衡性也对 Recall@K 评估指标产生了积极的影响.
从图 4(f)–(j) 显示的 Hit@K 指标统计结果可以看出, 首先对于每个指标和每个数据集, 同样随着采样尺度 s 在
一定范围内 ( s ⩽ 5) 的增加, CBT-MF 的性能也有所提升. 这说明采样尺度确实对 CBT-MF 性能有积极影响, 同时
也证明了所设计的数据增强模块对提升 CBT-MF 的 bug 分派性能是有效的; 其次, 在每个数据集和每个 Hit@K 指
标中, 采样尺度为 5 的时候, CBT-MF 的性能提升得最为明显. 以 Hit@5 指标为例, 当采样尺度 s 从 1 增加 3, 3 增
加到 5 时, 对于 GC 数据集, CBT-MF 的性能分别提升了 0.003 6 和 0.001 7, 提升趋势逐渐减缓; 当采样尺度 s 继续
增加时, CBT-MF 性能出现明显的下降趋势. 导致这个现象的原因是, 当采样尺度 s 过小时, 采样所得的样本集合
不能全面代表原始测试集, 因此, CBT-MF 的性能一般; 当采样尺度 s 过大时, 由于 CBT-MF 需要处理的数据量增
加, 引入的未知噪声也会随之增加, 导致 CBT-M 性能并不会有明显提升, 甚至在 3 个数据集上的评估指标出现了
缓慢下降的趋势.
综上所述, 采样尺度 s 对 CBT-MF 性能有一定程度的影响, 增加 s 时 Recall@K 和 Hit@K 会随着增大, 表明更
s 会导致其性能退化, 这归因于实验测试集中的噪声在大采样尺
多的数据可以带来更多的学习特性; 然而, 较大的
度的情况下会导致 CBT-MF 过拟合. 此外, 从图 4 展示的实验结果中还发现, 数据集 GC 和 MC 的 Hit@K 结果与
Recall@K 结果趋势出现了反差. 这很大程度上是由于 GC 数据集修复记录更加不均衡, 而 MC 数据集相对均衡,
导致 CBT-MF 在 GC 数据集上拥有更高的 Recall@K, 这表明 CBT-MF 能够更好地召回 GC 数据集中的 bug. 但在
GC 数据集上的 Hit@K 较低, 表明 CBT-MF 在 GC 数据集中推荐出了更多的无关或不合适的 bug. 总体上讲, 采样
尺度为 5 时, CBT-MF 性能提升最为明显, 考虑到这一点, 在后续的实验中, 把采样尺度 s 均设置为 5.
(2) 聚类质心数的敏感性. 为了分析聚类质心数对 CBT-MF 分派性能的影响, 本文构建了 CBT-MF 方法的变
体 CBT-MF-k. 其中, k 依次设置为 10, 20, ..., 50, 相应地将 bug 和开发人员的质心数设置为其总数的 k%. 且为了降

133 134 135 136 137 138 139 140 141 142 143