Page 206 - 《软件学报》2025年第7期
P. 206

张逍怡 等: 面向智能体路径规划算法的动态随机测试方法                                                     3127


                 无效测试用例, 执行      RT  和  ART (包括  ART3  和  ART5) 后生成测试用例的多样性程度均为        14; 而  DRT-PP  生成测
                 试用例的平均多样性程度在          8.0–10.0  之间, 平均值为  8.8. 可见, 由于  DRT-PP  提升了寻优性, 其生成测试用例的多
                 样性程度相较于纯随机的         RT  有所下降, 但减小幅度有限. 表       6  展示了当考虑所有无效测试用例后, 即将无效测试
                 用例的多样性记为       0  后, 各测试方法的多样性分析结果. 可以看出, 由于            RT  生成了大量无效测试用例, 因此在考
                 虑了这些测试用例的负面影响后, 整体的多样性程度会大大降低: 从                     14.0  降至  1.8; ART  尽管旨在提升测试用例的
                 多样性, 但由于路径规划场景的复杂性, 仅仅通过测试用例间的距离进行筛选而不考虑测试剖面仍然有很大的可
                 能生成无效的测试用例, 进而使整体的多样性程度大大降低, 这一现象在                      ART3  和  ART5  上均有体现: 二者的多样
                 性程度分别从     14.0  降至  1.9  和  1.6. 而  DRT-PP  通过随机搜索的方式在保证测试用例有效性的同时, 在一定程度上
                 兼顾了测试用例的多样性, 因此, 即使考虑无效测试用例, DRT-PP                 生成测试用例的多样性仍保持在            5.0–7.0  之间
                 (平均值为   6.2).

                           表 5 RQ2、RQ3   不同的测试方法生成测试用例的多样性              Div 比较  (排除无效测试用例)

                    方法        1      2      3      4      5      6      7      8      9      10    Avg.
                     RT      14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0
                    ART3     14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0
                    ART5     14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0   14.0
                   DRT-05    11.0    9.5    9.2   10.4   10.2    8.9    9.7   10.3    9.7    9.6    9.9
                   DRT-10     8.2    9.0    6.6    8.6    8.5    6.2    7.9    8.2    7.6    9.6    8.0
                   DRT-15     7.7    9.8    9.0    8.8    7.9    7.4    9.3    8.5    8.5    8.2    8.5
                   DRT-20     9.8    6.3    7.1    8.8    9.5    9.0    8.9    9.5    9.5    9.5    8.8
                   DRT-Avg    9.2    8.6    8.0    9.1    9.0    7.8    9.0    9.1    8.8    9.2    8.8



                                                                            all
                            表 6 RQ2、RQ3   不同的测试方法生成测试用例的多样性              Div  (包括无效测试用例)

                     方法        1      2      3      4     5      6      7      8      9     10     Avg.
                     RT       1.6    2.1    2.1    1.8    1.9    2.0   1.9    1.7    1.9    1.7    1.8
                    ART3      1.9    1.8    2.1    1.8    2.2    1.8   1.7    1.8    2.1    1.9    1.9
                    ART5      1.6    2.1    2.0    2.0    2.1    1.8   1.7    2.0    1.9    1.9    1.9
                    DRT-05    8.8    6.6    5.8    7.8    6.3    6.3   6.7    7.3    7.2    6.5    6.9
                    DRT-10    5.7    7.0    4.4    5.7    5.9    4.2   5.6    6.0    5.7    7.1    5.7
                    DRT-15    5.8    7.3    5.9    6.9    5.0    5.5   6.5    6.9    6.1    5.5    6.1
                    DRT-20    7.1    4.0    4.2    5.8    6.7    6.5   6.3    6.6    7.3    6.8    6.1
                   DRT-Avg    6.8    6.2    5.1    6.6    6.0    5.6   6.3    6.7    6.6    6.5    6.2

                    RQ2  结论: 实验结果表明, 基于纯随机采样的测试方法生成测试用例的多样性程度较高, 但不能弥补其生成
                 大量无效测试用例带来的负面影响. 而            DRT-PP  方法由于提升了寻优性, 生成测试用例的多样性程度有所降低. 然
                 而, DRT-PP  兼顾了测试用例的有效性和多样性, 因此其生成有效测试用例的多样性反而得到了提升.

                 3.3.3    DRT-PP  参数分析
                    表  1  同样比较了各测试剖面更新幅度下           DRT-PP  的测试效果. 从表中可以看出, 在各种参数下, DRT-PP           的整
                 体测试效果相差不大. 针对平均失效度            S  avg , DRT-10  的表现最好  (17.7), DRT-15  其次  (17.2), DRT-05  表现相对较
                 差  (14.2); 对于其他指标, 包括最大失效度     S  max 、失效度大于  40 的测试用例数量、无效测试用例数量, 都是            DRT-15
                 表现更好; 这   3  个指标表现相对较差的       DRT-PP 配置分别是     DRT-05 ( S  max  = 39.3)、DRT-05 (平均失效度大于  40
                 的测试用例个数为       0.5)、DRT-20 (平均无效测试用例个数为         167.5). 为了进一步观察, 我们分别针对平均失效度
                 S  avg   和最大失效度  S  max  对  DRT-PP  的各个参数配置进行假设检验分析, t-检验结果如表      7  和表  8  所示. 表中的行和
                 列分别为不同的      DRT-PP  配置参数: 行为方法     1, 列为方法   2. 与表  2  类似, 每个单元格的数据仍然依次为          T  值、
                 p  值、显著程度. 显著性为√意味着方法          1  优于方法  2; 反之, 显著性为×意味着方法       2  优于方法  1. 从这两个表可以
   201   202   203   204   205   206   207   208   209   210   211