Page 174 - 《软件学报》2026年第1期

P. 174

任睿晗等: 面向整车系统的自动驾驶安全测试研究综述 171

参与者的行为做出合理决策. 实验结果表明, 74.5% 的违规场景由自动驾驶系统承担主责, 而使用非智能 NPC 的
基线实验仅为 1.1%. 该方法避免了低智能 NPC 对测试结果的影响, 但拓展性不强, 无法对现有测试方法进行补充.
为了控制 NPC, DoppelTest 提出了一套订阅方案, 难以整合到现有测试框架中.
一些研究人员设计场景验证方案, 筛选出真正的违规场景和误报. MFT [89] 使用模糊测试在 AV 的驾驶轨迹上
随机生成静态障碍物, 构建蜕变关系检查碰撞事故是否发生变化, 从而区分出系统故障和无法避免的碰撞, 检测自
动驾驶系统面对突发情况的容错能力, 最终筛选出 28.2% 的违规场景. Zhou 等人 [90] 构建了一个包括事故视频和描
述文本的多模态数据集, 并基于 X-CLIP 模型训练了一个多模态模型. 该模型集成在测试框架 CollVer 中, 能够筛
选出自车承担事故主要责任的违规场景. 实验结果表明, 模型的查准率为 82.2%, 查全率为 77.9%.
4.4.2 测试用例优化
执行过程是整车系统测试与模块测试的主要区别之一. 模块测试接收图片、轨迹等简单数据, 验证单一模型
功能, 执行速度快、效率高; 整车系统测试需要使用仿真器执行和验证大量测试场景, 时间成本较高, 效率较低. 因
此, 研究人员亟需加速仿真测试, 优化测试用例. 具体方案有两种, 分别是替代方案和约减方案, 如图 11 所示.
替代方案使用各种模型完成测试场景的初次筛选, 去除无效场景, 保留违规潜力更大的关键测试场景. 例如,
SAMOTA [91] 训练了一个代理模型近似仿真器的执行结果, 评估测试场景的违规程度, 从而只在仿真测试中验证最
大概率发生事故的场景. CART [92] 从驾驶记录中推断输入与输出之间的因果关系, 并形式化为因果模型, 输入是测
试场景的参数, 输出是自动驾驶表现的行为与预定义的错误行为之间的距离. 随后用因果推理查询模型, 估算场景
参数的执行结果, 并在仿真器中运行可能性最大的场景. 与 SAMOTA 相比, CART 在相同的测试时间内能够发现
更多违规场景, 其生成的测试集多样性也更高.
现有软件更新迭代速度快, 为了保证新的功能不会引入安全问题, 需要进行回归测试. 由于不断复用测试数据,
测试用例集合的规模不断增加, 冗余度上升, 且存在测试场景的同质化问题. 约减方案使用选择、约减和优先级排
序方法解决上述问题. 例如, STRAP [93] 接收录制的真实驾驶数据集, 依据数据片段的相似性约减长段的驾驶记录,
并利用驾驶场景的特征覆盖率和稀有度对剩余片段进行优先级排序, 加速回归测试, 约简后的测试集平均能发现
原测试集中 98.8% 的故障. 测试约减技术已经较为成熟 [94−96] , 但多针对车道保持等简单场景, 仍然需要研究人员
将应用领域从高级驾驶辅助系统迁移到自动驾驶系统.
4.4.3 小结
误报检测、多代理仿真研究在传统的软件测试领域已取得长足进展, 但在自动驾驶领域才刚刚起步, 仍需深
入研究. 仿真加速、测试约减技术已经被应用于测试高级辅助驾驶系统, 但是研究对象较为简单, 需要研究人员进
行拓展研究和方案迁移. 虽然测试优化技术无法发现自动驾驶系统的缺陷, 但是研究人员可以将其整合到安全测
试框架中, 提高缺陷检测效率和准确率, 辅助漏洞挖掘过程.
4.5 测试预言
测试预言用于判断测试结果是否符合预期, 评估自动驾驶系统的表现和性能. 道路测试中的测试预言, 如行驶
里程和脱离接管率, 无法应用于仿真测试; 模块安全研究中的测试预言, 如转向角偏离程度和终点预测误差, 只能
用于判断单个模块的执行结果, 无法准确衡量整车系统的安全性. 因此, 研究人员需要设计精确、合适的测试预言
并证明其有效性.
在整车系统安全测试领域, 常用的测试预言有发生碰撞、保持静止等. 最近有研究人员整合了以往工作中提
出的跨越车道线、违反限速等涉及交通规则的测试预言, 利用考虑交规的场景描述语言分析了自动驾驶系统遵守
交通规则的能力 [56] . 由于测试预言服务于测试场景的有效性验证, 属于场景生成和执行步骤后的一个辅助环节.
因此, 上述 4 个分类已经涉及了相关工作, 本节不再赘述.
4.6 总结
以面向整车系统的自动驾驶安全测试框架为分类支撑, 上述文献覆盖了近年来该领域的主流研究工作. 最核
心的研究工作围绕测试用例生成方法展开, 相关研究时间跨度大、思路方法多、需求迫切, 技术体系也不断融合

169 170 171 172 173 174 175 176 177 178 179