Page 139 - 《软件学报》2020年第11期
P. 139

张卓  等:基于词频-逆文件频率的错误定位方法                                                         3455


                               Table 3    Best, average and variance of Exam comparison of TF-IDF over SFL
                             表 3   基于 TF-IDF 的方法和 SFL 的最好 Exam、平均 Exam 和 Exam 方差对比
                                   python  gzip   libtiff  space  nanoxml_v1  nanoxml_v2  nanoxml_v3  nanoxml_v4
                            best   0.048 95   0.003 38   0.042 39  0.016 19  0.030 49   0.022 60   0.014 93   0.018 52
                    ER1′
                   (TF-IDF)   average   0.401 50   0.087 78   0.315 94  0.603 21  0.067 07  0.043 31   0.179 36   0.352 17
                           variance  0.404 80  0.095 89   0.351 92  0.263 74  0.031 68   0.031 12   0.209 34   0.346 88
                            best   0.050 08   0.007 91   0.188 12  0.034 57  0.030 68   0.284 09   0.029 85   0.068 97
                    ER1′   average   0.409 67   0.100 61   0.442 17  0.608 90  0.327 20   0.270 83   0.381 26   0.551 26
                           variance   0.395 62   0.119 39   0.299 87  0.289 54  0.497 74   0.414 98   0.231 80   0.319 36
                            best   0.104 61   0.003 38   0.042 39  0.088 07  0.030 49   0.022 60   0.014 93   0.032 41
                    GP02
                   (TF-IDF)   average   0.578 20   0.384 48   0.373 12  0.615 19  0.363 82   0.218 46   0.391 51   0.549 23
                           variance   0.317 86   0.469 71   0.416 99  0.282 61  0.291 81   0.334 35   0.334 91   0.325 46
                            best   0.111 61   0.026 06   0.190 93  0.034 57  0.006 14   0.005 68   0.029 85   0.068 97
                    GP02   average   0.441 59   0.230 90   0.446 43  0.611 02  0.327 20   0.263 26   0.381 26   0.551 26
                           variance  0.364 65  0.261 34   0.307 91  0.287 43  0.519 35   0.421 77   0.231 80   0.319 36
                            best   0.050 08   0.007 91   0.042 39  0.019 48  0.030 49   0.022 60   0.014 93   0.018 52
                    GP19   average   0.404 43   0.177 05   0.333 61  0.529 07  0.071 14  0.246 70   0.220 10   0.190 31
                   (TF-IDF)
                           variance   0.389 50   0.291 08   0.344 26  0.361 26  0.035 20   0.340 41  0.247 01   0.185 65
                            best   0.050 08   0.007 91   0.226 65  0.015 64  0.030 49   0.079 10   0.014 93   0.096 77
                    GP19   average  0.423 15   0.235 41   0.453 31  0.523 93  0.071 14   0.284 37   0.205 85   0.236 73
                           variance  0.431 19   0.354 18   0.287 87  0.365 66  0.035 20   0.307 91  0.178 94   0.149 01
                            best   0.050 08   0.007 91   0.042 39  0.019 75  0.030 49   0.022 60   0.014 93   0.018 52
                    ER5
                   (TF-IDF)   average   0.405 87   0.125 32   0.373 12  0.622 66  0.067 07   0.043 31   0.126 02   0.266 43
                           variance  0.409 34  0.144 85   0.416 99  0.270 89  0.031 68   0.031 12   0.121 62   0.218 31
                            best   0.050 08   0.027 02   0.232 67  0.040 33  0.128 83   0.120 68   0.074 63   0.051 72
                    ER5    average  0.415 45  0.100 10   0.492 82  0.604 84  0.404 91   0.346 59   0.379 67   0.535 55
                           variance   0.395 09   0.083 05   0.354 44  0.285 44  0.401 13   0.298 71   0.207 02   0.319 85
                            best   0.053 55   0.053 75   0.042 39  0.016 19  0.134 15   0.022 60   0.014 93   0.018 52
                    GP03
                   (TF-IDF)   average  0.572 23   0.428 30   0.552 58  0.496 06  0.390 24  0.263 65   0.348 01   0.437 95
                           variance  0.346 59  0.397 70   0.485 27  0.295 07  0.283 65   0.333 35   0.285 87   0.279 52
                            best  0.084 59  0.007 91   0.376 37  0.034 57  0.030 68   0.028 41   0.029 85   0.068 97
                    GP03   average   0.515 24   0.243 78   0.711 71  0.634 29  0.335 38  0.270 83   0.374 93   0.551 26
                           variance   0.321 20   0.266 74   0.309 39  0.273 41  0.511 91   0.414 98   0.228 20   0.319 36
                            best   0.050 08   0.007 91   0.042 39  0.016 46  0.030 49   0.022 60   0.014 93   0.018 52
                    Dstar   average       0.125 32       0.609 53
                   (TF-IDF)       0.405 87        0.373 12        0.067 07   0.043 31   0.126 02   0.268 29
                           variance  0.409 35   0.144 85   0.416 99  0.264 82  0.031 68   0.031 12  0.121 62   0.216 14
                            best   0.050 08   0.007 91   0.232 67  0.028 81  0.208 59   0.102 27   0.029 85   0.051 72
                    Dstar   average  0.413 75  0.105 34   0.492 82  0.596 05  0.468 30   0.183 71   0.492 03   0.357 86
                           variance   0.400 49   0.114 96   0.354 44  0.284 73  0.444 53   0.079 61  0.365 32   0.297 66
                            best   0.050 08   0.027 03   0.042 39  0.333 33  0.097 56   0.022 59   0.014 92   0.018 51
                   Ochiai
                   (TF-IDF)   average   0.335 41   0.179 39   0.373 12  0.631 27  0.148 37   0.145 00   0.183 60   0.346 19
                           variance   0.310 12   0.208 95   0.416 99  0.189 38  0.148 37   0.109 01   0.211 76   0.215 00
                            best   0.050 07   0.027 02   0.042 39  0.427 70  0.024 39   0.022 59   0.014 92   0.018 51
                   Ochiai   average   0.346 29   0.210 24   0.373 12  0.633 60  0.046 74   0.064 03   0.166 87   0.310 36
                           variance  0.314 01  0.214 68  0.416 99  0.154 05  0.046 74   0.066 92   0.181 73   0.242 67
                            best   0.050 07   0.027 02   0.042 39  0.029 08  0.024 39   0.028 24   0.019 32   0.096 77
                   Tarantula   average   0.405 86   0.125 32   0.373 12  0.525 01  0.067 07   0.050 84   0.122 68   0.423 45
                   (TF-IDF)
                           variance  0.409 34  0.144 84  0.416 99  0.320 69  0.067 07   0.025 89   0.115 06   0.196 41
                            best   0.050 07   0.027 02   0.042 39  0.322 90  0.140 24   0.141 24   0.183 57   0.096 77
                   Tarantula   average   0.415 45   0.137 74   0.373 12  0.440 51  0.229 67   0.212 80   0.284 63   0.442 10
                           variance   0.395 09   0.139 46   0.416 99  0.227 18  0.229 67   0.133 85   0.109 17   0.303 40
                    同时,表 3 显示出应用了 TF-IDF 技术后,在一些实验程序取得的 average 值并没有取得更好的效果.本文深
                 入分析实验数据后,发现实验程序中少数错误版本定位效能的高偏向性,会影响整个实验对象的结果.以一个例
                 子来描述这种高偏向性带来的这种结果.假定在实验程序的少数错误版本上,错误定位方法 FL1 的效能比 FL1
                 (TF-IDF)显著高出很多;在其他大多数错误版本上,FL1 的效能低于 FL1(TF-IDF),而效能低出量不大.在这种情
                 况下,FL1 在少数错误版本上取得的效能高偏向性,会抵消和扭转其在大多数版本上取得效能劣势,最终呈现出
                 FL1(TF-IDF)的 average 值比 FL1 会低很多,即 FL1 的效能要好于 FL1(TF-IDF).因此,这种情况存在少数错误版
                 本的效能高偏向性问题,并不能得出 FL1 优于 FL1(TF-IDF)的结论.为了消除这种偏向性并更深入地评价本文方
                 法,实验采用 Wilcoxon-signed-rank test [15] .它在数据进行成对比较时具有较强的说服力             [15] .Wilcoxon-Signed-
   134   135   136   137   138   139   140   141   142   143   144