Page 219 - 《软件学报》2020年第9期
P. 219

2840                                 Journal of Software  软件学报 Vol.31, No.9,  September 2020

                 告、代码结构和堆栈踪迹这 4 种特征,并在大量研究中被以不同的方式集成到他们的 IRBL 方法中;
             (3)  查询重构是一种独立于具体定位方法的优化策略,因此,它可以作为一个预处理步骤集成在任何现有
                 的 IRBL 方法中,具有很好的可移植性;
             (4)  将深度学习模型应用到基于信息检索的缺陷定位中,可以自动地从代码和缺陷报告中提取特征.最新
                 的研究显示了深度学习模型在缺陷定位应用中十分有效.

         4    IRBL 模型的评估

             本节介绍 IRBL 模型评估方向的研究进展,根据对现有文献的分类,主要从模型比较、评价指标和实验数据
         这 3 个部分展开介绍.

         4.1   模型比较
             研究者在提出新的 IRBL 方法时,会设计实验来验证新方法的有效性.然而通常的情况是,不同研究者在设
         计实验时不能够完全确保实验的一致性(即:与基准方法使用的实验设置是否一致,是否正确复现了基准方法)
         与合理性(即实验设置是否存在问题).这些因素可能会使得实验结果不能准确显示新方法的真实性能,从而误
         导后续的研究工作.
             为了获得比较真实客观的实验结果,一些研究工作致力于设置公平的实验对已有定位方法或者 IR 模型的
         效果进行比较和评估的实证研究,我们简称为模型比较研究.这类研究的好处在于以下 3 个方面                                [89] :(1)  对研究
         者,帮助他们理解现有模型的优缺点和真实效果,并在此基础上研究更有效的定位方法;(2)  对缺陷定位编程人
         员,帮助他们理解如何更好地使用现有方法来达到理想的定位结果;(3)  对缺陷报告者来说,帮助他们在提交缺
         陷报告时填写对定位缺陷最有用的信息来加强缺陷定位的成功.
         4.1.1    对不同参数性能的比较
             2011 年,Thomas 等人 [66] 在超过 8 000 个缺陷报告上实证调查了分类器参数(总共 3 172 种参数设置)和不同
         分类器组合对缺陷定位的影响.他们主要得出两个结论:(1)  分类器的参数设置对性能有显著的影响;(2)  使用
         不同分类器组合的结果优于使用任意单独的分类器.
             2018 年,Tantithamthavorn 等人 [76] 研究了 IR 分类器的配置参数对方法级别缺陷定位的性能和工作量的影
         响.他们的主要结论如下:(1)  即使在分类结果的排序性能相似的情况下,不同的参数对分类结果的工作量有十
         分显著的影响;(2)  在方法级别表现较好的参数设置可以应用到文件级别,反之亦然.他们最后强调,在评估方法
         时应当考虑审查结果所花费工作量.
         4.1.2    对不同模型性能的比较
             2011 年,Wang 等人 [19] 在一个大型的 Linux 内核数据集上比较了 10 种不同 IR 技术的关注点定位(concern
         localization)方法.他们的结果显示:(1)  简单的 IR 模型(如 VSM 和 SUM)比复杂的模型(如 LDA)定位效果要好;
         (2)  相同的 IR 技术在不同系统上处理不同应用时的表现有差异;(3)  基于 IR 的关注点定位技术在大型软件系
         统中和小型软件系统中一样有效;(4)  现有的 IR 技术在处理软件语料库时,效果差于处理自然语言的语料库.
             2015 年 Alduailij 等人 [89] 使用统计推断比较 3 种文本模型(VSM,LSI,LDA)在方法级别缺陷定位时的性能.
         他们得出结论是,VSM 是比较好的模型.接着,他们研究了额外参数对 VSM 性能的影响,包括方法长度、查询长
         度、方法的文档注释以及缺陷报告中提及的产品名称和组件名称.他们发现,VSM 与大多数被测的参数正相关.
             2018 年,Shi 等人 [94] 对混合缺陷定位方法(hybrid bug localization,即同时使用 IR 相似度和附加特征的方法)
         进行研究.他们比较了 8 种不同的 LtR 技术在使用 4 种归一化方法时的性能表现.他们发现,LtR 的表现好于最
         新的 BLUiR  [24] 和 AmaLgam 方法 [31] .
         4.1.3    对不同实验方案的比较
             一些研究者指出:在进行模型比较的实验验证过程中存在不合理的设置,这些不合理的设置会影响实验结
         果的准确性.2018 年,Kim 等人     [41] 发现,现有研究的实验数据集中包含一些 non-buggy 文件(例如测试文件).他们
         指出:将这些文件包含在数据集中会影响现有技术的可靠性,所以在以后实验方案中应当被去掉.根据他们在排
   214   215   216   217   218   219   220   221   222   223   224