Page 128 - 《软件学报》2025年第4期

P. 128

1534 软件学报 2025 年第 36 卷第 4 期

不同使用深度学习的基于信息检索的缺陷定位方法具有不同的定位粒度, 通过统计不同论文中选用的基线方
法可以得到不同定位粒度与不同数据集上最先进的方法. 本研究问题旨在为未来使用深度学习的基于信息检索的
缺陷定位方法研究提供基线方法的选取参考.
本文第 1 节介绍了文献的检索过程, 并基于定位粒度、跨项目评测等标准将文献分类, 为后续研究问题的解
答提供基础. 第 2–5 节分别从使用深度学习技术的基于检索的缺陷定位方法的数据集、方法评估、方法迁移性、
方法性能以及方法细节回答 RQ1–RQ4. 第 6 节进一步总结使用深度学习技术的基于信息检索的缺陷定位方法依
然存在的不足以及未来可行的研究方向. 最后, 在第 7 节总结全文并展望未来工作.

1 文献检索与分类

为了对使用深度学习的基于信息检索的缺陷定位方法的相关论文进行系统地分析, 本文在公开期刊与会议论
文、出版书籍中, 检索在使用深度学习的基于信息检索的缺陷定位研究方向提出的新技术, 或为该研究工作提供
实证研究支持的文献. 本文检索与选取文献的方式步骤如下.
步骤 1: 根据检索的关键词“bug/fault localization”, “information retrieval”和“deep learning”, 在 Google Scholar,
2. 论文发表在国内外软件工程领域的会议或期刊
ACM Library, IEEE Xplore, Springer Link, Elsevier 等的文件检索库中搜索包含以上 3 个关键词的标题的论文, 表 1
提供了文献检索库的网址.

表 1 文献获取网址

文件检索库网址
Google Scholar https://scholar.google.com
ACM Library https://dl.acm.org/
IEEE Xplore https://ieeexplore.ieee.org/
Springer Link https://link.springer.com/
Elsevier https://www.elsevier.com/
中国知网 https://www.cnki.net/
arXiv https://arxiv.org

步骤 2: 依据表 2 的筛选标准对步骤 1 检索出的论文进行筛选, 保留符合本文研究主题的论文, 得到 24 篇符
合要求的论文.

表 2 文献过滤标准

标准类型标准详细内容
1. 论文是中文和英文之外的其他语言
2. 博士生或硕士生毕业论文
3. 不是完整的研究, 研究方法、结果、结论等必备因素不全
排除
4. 网上无法下载完整的论文内容
5. 论文中提出的方法不是基于信息检索, 输入不包括缺陷报告
6. 论文提出的方法未应用
1. 论文标题或者内容包含deep learning, information retrieval, bug/fault localization, 深度学习, 基于信息检索, 缺陷定位
等关键词
包含
3. 论文中采用基于信息检索的缺陷定位方法, 输入包含缺陷报告以及项目源代码

步骤 3: 采用滚雪球的方法, 根据步骤 2 选出论文的引用与被引用情况, 向前检索被引用的文献, 向后检索引
用文献, 在这些文献中再次根据表 2 筛选出满足要求但未在步骤 1 与步骤 2 中检索出的论文.
步骤 4: 针对步骤 3 新筛选出的论文重复步骤 3 的方法, 直到不再有新的论文加入. 筛选出新的满足要求论文
28 篇.
经过上述 4 个步骤, 共筛选出 52 篇符合要求的论文 (截至 2024 年 1 月), 图 4 统计了使用深度学习技术的基

123 124 125 126 127 128 129 130 131 132 133