Page 174 - 《软件学报》2026年第1期
P. 174

任睿晗 等: 面向整车系统的自动驾驶安全测试研究综述                                                       171


                 参与者的行为做出合理决策. 实验结果表明, 74.5%             的违规场景由自动驾驶系统承担主责, 而使用非智能                 NPC  的
                 基线实验仅为     1.1%. 该方法避免了低智能      NPC  对测试结果的影响, 但拓展性不强, 无法对现有测试方法进行补充.
                 为了控制   NPC, DoppelTest 提出了一套订阅方案, 难以整合到现有测试框架中.
                    一些研究人员设计场景验证方案, 筛选出真正的违规场景和误报. MFT                     [89] 使用模糊测试在   AV  的驾驶轨迹上
                 随机生成静态障碍物, 构建蜕变关系检查碰撞事故是否发生变化, 从而区分出系统故障和无法避免的碰撞, 检测自
                 动驾驶系统面对突发情况的容错能力, 最终筛选出                28.2%  的违规场景. Zhou  等人  [90] 构建了一个包括事故视频和描
                 述文本的多模态数据集, 并基于          X-CLIP  模型训练了一个多模态模型. 该模型集成在测试框架                CollVer 中, 能够筛
                 选出自车承担事故主要责任的违规场景. 实验结果表明, 模型的查准率为                      82.2%, 查全率为  77.9%.
                  4.4.2    测试用例优化
                    执行过程是整车系统测试与模块测试的主要区别之一. 模块测试接收图片、轨迹等简单数据, 验证单一模型
                 功能, 执行速度快、效率高; 整车系统测试需要使用仿真器执行和验证大量测试场景, 时间成本较高, 效率较低. 因
                 此, 研究人员亟需加速仿真测试, 优化测试用例. 具体方案有两种, 分别是替代方案和约减方案, 如图                           11  所示.
                    替代方案使用各种模型完成测试场景的初次筛选, 去除无效场景, 保留违规潜力更大的关键测试场景. 例如,
                 SAMOTA [91] 训练了一个代理模型近似仿真器的执行结果, 评估测试场景的违规程度, 从而只在仿真测试中验证最
                 大概率发生事故的场景. CART        [92] 从驾驶记录中推断输入与输出之间的因果关系, 并形式化为因果模型, 输入是测
                 试场景的参数, 输出是自动驾驶表现的行为与预定义的错误行为之间的距离. 随后用因果推理查询模型, 估算场景
                 参数的执行结果, 并在仿真器中运行可能性最大的场景. 与                  SAMOTA  相比, CART  在相同的测试时间内能够发现
                 更多违规场景, 其生成的测试集多样性也更高.
                    现有软件更新迭代速度快, 为了保证新的功能不会引入安全问题, 需要进行回归测试. 由于不断复用测试数据,
                 测试用例集合的规模不断增加, 冗余度上升, 且存在测试场景的同质化问题. 约减方案使用选择、约减和优先级排
                 序方法解决上述问题. 例如, STRAP       [93] 接收录制的真实驾驶数据集, 依据数据片段的相似性约减长段的驾驶记录,
                 并利用驾驶场景的特征覆盖率和稀有度对剩余片段进行优先级排序, 加速回归测试, 约简后的测试集平均能发现
                 原测试集中    98.8%  的故障. 测试约减技术已经较为成熟          [94−96] , 但多针对车道保持等简单场景, 仍然需要研究人员
                 将应用领域从高级驾驶辅助系统迁移到自动驾驶系统.
                  4.4.3    小 结
                    误报检测、多代理仿真研究在传统的软件测试领域已取得长足进展, 但在自动驾驶领域才刚刚起步, 仍需深
                 入研究. 仿真加速、测试约减技术已经被应用于测试高级辅助驾驶系统, 但是研究对象较为简单, 需要研究人员进
                 行拓展研究和方案迁移. 虽然测试优化技术无法发现自动驾驶系统的缺陷, 但是研究人员可以将其整合到安全测
                 试框架中, 提高缺陷检测效率和准确率, 辅助漏洞挖掘过程.
                  4.5   测试预言
                    测试预言用于判断测试结果是否符合预期, 评估自动驾驶系统的表现和性能. 道路测试中的测试预言, 如行驶
                 里程和脱离接管率, 无法应用于仿真测试; 模块安全研究中的测试预言, 如转向角偏离程度和终点预测误差, 只能
                 用于判断单个模块的执行结果, 无法准确衡量整车系统的安全性. 因此, 研究人员需要设计精确、合适的测试预言
                 并证明其有效性.
                    在整车系统安全测试领域, 常用的测试预言有发生碰撞、保持静止等. 最近有研究人员整合了以往工作中提
                 出的跨越车道线、违反限速等涉及交通规则的测试预言, 利用考虑交规的场景描述语言分析了自动驾驶系统遵守
                 交通规则的能力      [56] . 由于测试预言服务于测试场景的有效性验证, 属于场景生成和执行步骤后的一个辅助环节.
                 因此, 上述  4  个分类已经涉及了相关工作, 本节不再赘述.
                  4.6   总 结
                    以面向整车系统的自动驾驶安全测试框架为分类支撑, 上述文献覆盖了近年来该领域的主流研究工作. 最核
                 心的研究工作围绕测试用例生成方法展开, 相关研究时间跨度大、思路方法多、需求迫切, 技术体系也不断融合
   169   170   171   172   173   174   175   176   177   178   179