Page 81 - 《软件学报》2026年第1期
P. 81
78 软件学报 2026 年第 37 卷第 1 期
的性能与语音识别的精准程度呈显著相关性. 因此, 如表 5 所示, 目前研究者们主要关注面向语音识别任务的自动
化测试用例生成方法.
表 5 现有面向语音处理应用的测试用例生成方法总结
发表 文献 测试输入生成 测试预言构建
年份 来源
2020 [92] 生成的语音输入到不同的语音识别系统中, 对比他们
运用TTS模型从文本自动生成语音
2021 [93] 的输出结果
(1) 音高变异; (2) 音量变异; (3) 速度变异; (4) 时长变
2022 [94] 异; (5) 白噪声注入; (6) 环境噪声注入; (7) 麦克风位置 蜕变关系: 输入包含相同文本序列的语音, 语音识别
系统的输出应该相同
修改; (8) 声源位置修改
利用ASR系统中的已知识别错误, 从错误文本合成多 生成的语音输入到不同的语音识别系统中, 对比他们
2023 [95]
个语音测试用例 的输出结果
记录了不同群体语音转换前后的识别错误率, 如果两
(1) 噪音注入; (2) 振幅修改; (3) 频率修改; (4) 振幅剪
2022 [96] 组错误率增量的差值超过了设定阈值, 则存在公平性
切; (5) 丢帧; (6) 低通滤波器过滤; (7) 高通滤波器过滤
问题
结合面向语音处理应用的测试用例生成挑战和现有方法的特性, 本文总结出如图 8 所示的面向语音处理应用的
测试用例生成研究框架. 现有测试挑战主要包括: (1) 应用环境中的语音输入特征模拟: 语音输入受背景噪声、混响、
信道失真、录制设备差异及发音变化 (如语速、音调、口音) 等因素影响, 需要测试系统在不同环境条件和说话方式
下的稳健性; (2) 语音语义和质量的可控: 变异后的音频需要保持语义清晰且不失真, 同时控制信号变异幅度, 使其既
能触发系统错误, 又符合实际应用场景的合理性; (3) 基于时序特征的测试预言构建: 语音数据的时间动态性会影响
被测对象对语音内容的理解, 测试预言需要考虑语音速率变化、语音截断、连续语流及停顿等时序特征, 并实现自
动化验证. 为了解决现有挑战, 现有方法从测试输入生成、音频质量控制和测试预言构建这 3 个方面展开. 测试输入
生成采用基于文本转换、录音硬件特征及应用环境特征的语音生成方法, 模拟不同设备和噪声条件对语音处理系统
的影响. 语音质量控制通过语义约束、变异幅度控制和信号质量评估, 确保测试输入既可能触发错误又不会导致误
报. 测试预言构建基于被测对象的输出对比, 找出不一致的具体位置, 或者根据语音变异策略确定参考文本是否改
变, 以自动化识别丢词、重复、误识别等错误. 接下来, 本文将更为详细地介绍各类测试用例生成方法.
测试挑战 技术路径 测试目标
基于文本转换的测试音频生成 验证语音处理系统在不
应用环境中的
语音输入特征模拟 基于录音硬件特征的测试音频生成 同设备、环境噪声及声
基于应用环境特征的测试音频生成 学条件下的稳健性
基于文本变异方法的语义控制
语音语义和 避免因信号失真或音频
质量的可控 基于语音特征变异幅度的控制 质量下降导致误报
基于音频信号质量评估方法
通过自动化分析输出,
基于时序特征的 基于不一致输出的错误捕获 识别例如丢词、重复、
测试预言构建 基于音频生成/变异策略的预言构建
误识别等错误的行为
图 8 面向语音处理应用的测试用例生成方法研究框架
5.1 语音识别
当前, 评估语音识别模型或系统的方法主要是使用现有数据集计算词语错误率 (word error rate, WER)、字符
错误率 (character error rate, CER) 等指标 [97] . 然而, 通常情况下, 语音识别应用的部署环境包含许多干扰因素, 比如
环境噪声、室内回声等. 这些因素可能导致真实应用场景中的实际输入偏离训练数据集分布, 从而使语音识别系
统在应用场景中表现出不可预测的行为 [94] . 为了解决该问题, 一些研究者提出了基于模糊测试与蜕变测试理论的
语音识别测试方法, 设计了多种针对不同应用场景特征的语音转换算子. 这类方法的技术路线可概括为: (1) 使用

