Page 176 - 《软件学报》2026年第1期
P. 176

任睿晗 等: 面向整车系统的自动驾驶安全测试研究综述                                                       173



                                                    表 6 常用的对比方法

                                   对比方法                               涉及文献
                                   随机方案                   [48,54,56−59,65,66,68−70,76,78,80,81,88,91,92]
                                   AV-Fuzzer                       [49−54,60,65,66,90]
                                   消融方案                        [50−53,55,60,61,66,72,81,90−93]

                  5.3   总 结
                    在评价指标方面, 关键场景生成分类下的工作更关注安全性指标和效率指标, 试图更快的生成更多危险场景;
                 对抗样本生成分类下的工作则选择攻击成功率作为衡量攻击效果的标准. 测试充分性分类和测试优化分类下的工
                 作更倾向于结合具体实验设置独特的评价指标, 以证明覆盖率度量或优化工作的有效性.
                    在对比方法方面, 早期阶段研究人员通常采用随机方案和                   AV-Fuzzer 实施对比实验. 随着研究工作的逐渐深
                 入, AV-Fuzzer 不再成为首选方案, 研究人员更倾向于根据研究的主要问题选择更匹配的对比方案. 此外, 采取消
                 融方案已经成为一种有效的策略, 以证明组件的重要性.

                  6   挑战与机遇

                    本节结合自动驾驶安全领域的主要研究方向, 提出了面向整车系统的安全测试研究面临的现实挑战和研究机
                 遇, 如表  7  所示.

                                            表 7 整车系统安全测试研究的挑战与机遇

                                研究方向                  现实挑战                     研究机遇
                              关键场景生成              低置信度的测试场景              基于真实性的场景生成技术
                               测试充分性            通用性受限的覆盖率度量                 覆盖分析框架设计
                              对抗样本生成              离线的模型验证方案                 感知模型闭环测试
                                测试优化              低智能的交通参与者                 智能代理规控方案

                  6.1   现实挑战
                    (1) 低置信度的测试场景. 现实世界的输入空间具有几何级别的参数量, 且存在小概率事件, 如前车随意丢弃
                 的异物、蓄意冲出马路的行人等. 而局限于成本和效率, 仿真测试中场景空间的参数量较少, 无法拟合真实环境.
                 同时, 仿真器中的汽车模型和传感器模型可能与真实对象存在差距, 影响测试结果的有效性. 除此之外, 现有研究
                 的测试场景基于专家知识构建, 由算法自动化生成, 与驾驶数据集脱钩. 此类测试场景缺乏合理性和真实性, 导致
                 其中的约束条件可能超越车辆的动力学极限, 安全事故无法避免, 与自动驾驶系统无关. 因此, 现有的工作中测试
                 场景的置信度存疑, 亟需研究人员设计出更有效的场景生成方法.
                    (2) 通用性受限的覆盖率度量. 现有研究通过覆盖率度量衡量测试充分性, 研究人员根据各自的研究目标定义
                 了不同的覆盖率度量, 或对相同的度量使用不同的术语, 没有统一和规范的标准. 尽管                         Tahir 等人  [97] 调研了自动驾
                 驶领域的覆盖率研究, 并将其分为场景覆盖率、情景覆盖率和需求覆盖率这                         3  类. 但他们的工作从宏观视角出发,
                 使用宽泛的概念定义覆盖率. 但是, 实际测试中的覆盖率随测试目标的不同而发生改变, 不存在可以套用的通用框
                 架. 由此导致在面对新问题或新条件时, 迁移成熟的解决方案十分困难, 阻碍了研究人员拓展测试充分性领域的研
                 究深度和广度.
                    (3) 离线的模型验证方案. 在自动驾驶系统中, 深度学习模型逐渐被引入用于分析和处理数据, 尤其是在感知
                 模块. 研究人员生成对抗样本验证模型的正确性和可靠性. 然而, 目前大部分工作仅针对单独的模型实施离线测
                 试, 而没有在仿真环境中进行闭环的在线测试. 在线测试能够提供控制输出对感知输入的反馈, 在实际环境中评估
                 模型的性能和表现. 相比之下, 离线测试方案缺少上述反馈机制, 无法持续地发起针对性攻击, 难以全面验证模型
                 的安全性. 因此, 在对整车系统进行安全分析时, 此类方法的效果并不理想, 亟需闭环测试方案.
   171   172   173   174   175   176   177   178   179   180   181