Page 193 - 《软件学报》2024年第6期
P. 193
谢瑞麟 等: IATG: 基于解释分析的自动驾驶软件测试方法 2769
0.10
α=5° 1.4
α=7°
0.08 α=9° 1.2
1.0
0.06
M 1 误导角度 0.8
0.04 0.6
0.4
0.02
0.2
0 0
semSensFuzz IATG+semSensFuzz semSensFuzz IATG+semSensFuzz
测试数据生成方法 测试数据生成方法
(a) M 1 (b) 总体误导角度
图 16 semSensFuzz 在引入 IATG 重要物体选择方法前后的误导能力对比
4 有效性分析
本节从内部有效性、外部有效性和构造有效性 3 个方面对所提方法进行有效性分析.
本方法的内部有效性影响主要在于两个方面. 首先是测试数据的生成过程是否正确, IATG 对 CNN 模型的解
释方法使用 Grad-CAM 的第三方开源实现代码, 且实验中编写的物体选择及替换代码经过了多次内部审查, 以尽
量确保代码实现的正确性. 其次是实验使用的评价指标 LPIPS [31] 实现是否正确, 实验中 LPIPS 评价指标的实现代
码和所使用的预训练 CNN 模型均来自开源的第三方项目 IQA-optimization [37] , 以尽量确保所计算 LPIPS 值的正
确性.
本方法的外部有效性影响主要在于 3 个方面. 一是实验的目标模型和所使用的数据集是否具有代表性, 英伟
达 DAVE [13] 自动驾驶架构被广泛用于构建转向角预测模型 [5−7] , 实验对象为使用该架构的预训练模型, 有一定的代
表性, 但无法保证 IATG 在其他架构或预训练模型上的有效性. 实验中真实物体提取和图像翻译方法分别使用公
开数据集 Cityscapes [14] 和 BDD100K [15] , Cityscapes 还作为了测试数据生成的原始图像来源. 其在自动驾驶和计算
机视觉领域被广泛使用 [9,30] . 以上数据集具有一定的代表性, 但无法保证在其他数据集上是否能得到相同的结果.
二是实验结果是否具有代表性, IATG 不存在随机性因素, 而作为比较对象的 IATG ran 具有随机性, 但箱型图去除
d
了不符合正态分布的异常值, 一定程度上排除了随机因素对实验结论的影响. 三是将 IATG 应用于其他自动驾驶
软件的可扩展性. 除转向角预测模型之外, IATG 可用于其他使用 CNN 的自动驾驶模型. 对于其他使用图像数据
作为输入, 并具有自我可解释性或外部可解释性的非 CNN 自动驾驶软件, 需要将 Grad-CAM 替换为其他相应的
解释方法以扩展 IATG. 本文实验部分只重点关注了使用 CNN 构建的转向角预测模型, 无法保证 IATG 在其他模
型上的有效性.
本方法的构造有效性影响主要在于评价测试数据指标的有效性, 实验中使用误导转向角超过一定阈值的数据
占总测试数据的比例来评价误导能力, 这一指标在自动驾驶决策模块的测试研究中被广泛使用 [5−7] . 另外实验部分
使用 LPIPS 值评价测试数据与原始图像的接近程度, 其作为计算机视觉领域的主流评价指标, 被广泛用做评价图
像的相似程度 [38] 、合成视频帧的质量 [39] 和生成图像与真实图像的接近程度 [40] 等指标.
5 相关工作
本节将介绍与本文相关的解释方法和其他自动驾驶软件的缺陷检测方法, 并与 IATG 进行对比.
5.1 深度学习软件的解释方法
为了提高深度学习软件的可解释性和透明性, 学术界对深度学习软件的解释方法进行了广泛和深入的研究并
且提出了一系列方法.