Page 262 - 《软件学报》2024年第6期
P. 262
2838 软件学报 2024 年第 35 卷第 6 期
100 96 • ◦ ± 92 100 92 • ◦ ± 90
82 84
80 80
70
64 60
百分比 (%) 40 40 百分比 (%) 40 52 46
58
60
34
28
20 16 20
10 10
6 6 6
2 2 2 2 2 2 2 2 2 0
0 0
N=4 N=6 N=10 N=50 N=100 N=4 N=6 N=10 N=50 N=100
(a) dSATNS vs. TSEGA (b) dSATNS vs. TSENS
100 100 100
100 96
90
80
TSEGA
百分比 (%) 60
40
20
4 4 4 6
0 0 0 0 0 0 0
0
N=4 N=6 N=10 N=50 N=100
(c) dSATNS vs. SAT4J
图 8 dSATNS 与主流算法缺陷检测率的 U 检验结果
为对各算法的性能有更直观的认识, 图 9 展示了由 Friedman 检验得到的各算法的平均排名 (越小越好). 可以
看到, 对所有 N 值而言, dSATNS 始终获得最佳的平均排名, 其次是 TSEGA 或 TSENS (二者的性能差别很小), 最
后是 SAT4J. 进一步地, 表 6 给出了 dSATNS 与各算法成对比较的 p 值 (Friedman 检验). 除了 N=50 外, dSATNS
与 TSEGA 的差异在其他情形均是统计显著的. 与 TSENS 相比, 统计不显著的情形还包括 N=100. 最后, dSATNS
与 SAT4J 的差异对所有 N 值而言均是统计显著的. 以上实验结果说明, 与主流算法相比, dSATNS 不仅获得了最
佳排名, 而且与其他算法的性能差异在多数情形下是统计显著的. 特别地, 当 N 较小时, dSATNS 展现出卓越的性
能表现, 这对于该算法的实际应用是非常有利的. 如前所述, 软件测试人员的时间、精力及成本往往都是有限的,
这使得他们不断寻求既能减小测试集规模, 又能提高测试效果的方法. 在软件产品线测试领域, 本文所提出的算法
为实现上述目标提供了行之有效的解决方案.
4
dSATNS
TSENS
Average ranks 2
3
SAT4J
1
N=4 N=6 N=10 N=50 N=100
图 9 Friedman 检验得到的各算法的平均排名 (average ranks)