Page 92 - 《软件学报》2026年第1期

P. 92

吉品等: 面向智能软件系统的测试用例生成方法综述 89

表 10 现有面向多模态数据处理应用的技术路径优缺点总结 (续)

技术路径优点缺点
(1) 能从真实事故中提取高风险行为模式, 生成具 (1) 事故报告内容格式多样, 信息提取与结构化过
基于交通事故报告的仿真有挑战性的关键测试场景程依赖强大解析能力
场景生成 (2) 可提升测试效率, 聚焦自动驾驶系统的安全边 (2) 语义理解和要素补全仍存在不确定性, 生成场
界与性能瓶颈景的完整性和一致性难以保障
(1) 明确以交通法规为基准, 可系统性地发现潜在 (1) 交通法规复杂多变, 场景抽象与规则映射过程
基于交通法规的仿真场景违规行为和安全缺陷存在不确定性
生成/测试预言构建 (2) 测试预言清晰、具备解释性, 便于对被测系统 (2) 需要对法规进行形式化建模, 构建与模拟器兼
的判断逻辑进行验证容的约束机制, 开发成本高
(1) 能有效发现具有潜在危险性的异常行为模式, (1) 行为模式的抽象和分类依赖大量真实轨迹数
基于行为模式识别的提升对边缘场景的检测能力据, 初始建模成本较高
测试预言构建 (2) 基于轨迹或交互模式的判断方式可自动化构 (2) 不同系统对行为模式的反应差异较大, 测试预
建测试预言, 减少人工标注负担言的通用性和一致性存疑
(1) 基于安全指标 (如碰撞、有无违规、TTC等)
构建测试预言, 可以直接衡量系统是否违反基本 (1) 不同任务或系统下合理的TTC、车距等阈值可
基于安全性标准的测试安全约束, 评判结果更明确能不同, 统一设定可能带来误判或漏判风险
预言构建 (2) 安全性标准通常是跨平台的约束要求, 不依赖 (2) 无法识别非违反规则但存在隐患的行为模式,
于具体系统的实现细节, 适合广泛的系统对比和难以全面评估系统的实际风险水平
统一评估

7.4 小结
综上所述, 当前面向多模态数据处理应用的测试用例生成方法在自动驾驶等关键领域取得了积极进展, 但
仍面临场景语义提取和生成不准确、测试用例生成方法通用性不足等问题. 针对上述问题, 未来的研究可围绕
以下几个重点方向展开, 以提升自动驾驶测试场景的生成质量和测试方法的通用性. (1) 基于国际标准的场景描
述语言进行测试场景生成: 未来研究可以依托符合国际标准的自动驾驶测试场景描述语言 OpenSCENARIO, 探
索更加灵活、高效的场景生成方法. OpenSCENARIO 提供了一种结构化的方式来描述复杂的驾驶场景, 使其可
以适配多种自动驾驶仿真软件, 如 CARLA、LGSVL 等. 通过利用 OpenSCENARIO, 可在跨平台适配性和测试
覆盖面方面取得更大突破, 提高研究成果的工程可落地性. (2) 跨模态数据融合提升场景语义提取能力: 结合多
模态数据融合的方法, 提高场景语义信息提取的准确性. 例如, 利用计算机视觉技术解析事故现场图像, 结合激
光雷达点云信息, 还原真实事故场景, 并通过自然语言处理技术解析对应的文本报告, 提高生成的测试用例的真
实性和有效性.
8 深度学习模型

除了上述面向某个应用领域中具体任务的测试用例生成方法以外, 目前也有许多研究聚焦于面向智能软件系
统的核心组件——深度学习模型的测试用例生成方法. 数据驱动的深度学习模型通过学习一组训练数据来构造内
部逻辑, 因此这类方法在设计时重点考虑与模型内部逻辑相关的深度神经网络结构特征和数据流动, 比如神经元
状态与输出、层与层之间的连接等. 本文根据欲解决的实际研究问题, 将这些相关方法分为测试用例度量方法和
测试用例生成方法进行归纳总结.
8.1 测试用例度量方法
由于被测对象的完整输入空间无法穷尽覆盖, 现有动态软件测试方法通常围绕测试用例设计展开, 旨在通过
有限测试用例触发的软件行为, 尽可能有效地反映整体软件质量. 测试用例对应的反映程度被定义为测试充分性.
测试用例充分性度量用于评估测试用例集或单个测试用例在覆盖被测对象行为方面的充分性. 传统软件测试方法
中的测试度量体系包含了语句覆盖、判断覆盖和条件覆盖等, 但这些方法并不能直接应用于深度学习模型测试.
如表 11 所示, 受传统覆盖指标启发, 研究者们提出了多种面向深度学习模型测试的覆盖度量指标. 这些方法通过
分析模型内部神经元的激活值、状态变化及网络结构特性, 一方面支持面向测试用例集的粗粒度充分性评估, 另

87 88 89 90 91 92 93 94 95 96 97