Page 80 - 《软件学报》2026年第1期
P. 80

吉品 等: 面向智能软件系统的测试用例生成方法综述                                                         77


                 测试瓶颈. 基于上述观察, 表       4 总结了当前面向自然语言处理应用的测试用例生成关键技术路径的优势与不足, 为
                 后续方法设计与改进提供参考.


                                      表 4 现有面向自然语言处理应用的技术路径优缺点总结

                   技术路径                       优点                                    缺点
                                                                    (1) 高度依赖句法解析模型的准确性, 在语法结构识
                             (1) 可以对句子的句法成分 (如主语、谓语、宾语) 进行
                 基于句法结构的 精细控制, 从而实现对语义保持或变化程度的有效约束                  别不准确或文本不规范的情况下容易生成无效或错
                                                                    误的测试输入
                 文本变异方法      (2) 生成的句子在句法层面上合法, 有助于生成语法正确、          (2)主要围绕句法结构进行变化, 导致生成的测试用
                             结构清晰的测试输入
                                                                    例在表达多样性上存在局限
                             (1) 能深入捕捉语义层面的微妙差异, 适用于检测模型对 (1) 难以精确控制变异句子的语义偏移程度, 可能导
                 基于语义特征的 语义变化的鲁棒性和推理能力                              致测试预言模糊或失效
                 文本变异方法      (2) 可结合反义、同义等自然语言现象, 设计更贴近真实 (2) 高度依赖语义词典、语言模型等外部工具, 方法
                             语言变异的测试预言                              的稳定性和适用性容易受限于资源质量和任务领域
                             (1) 能根据任务输入输出结构设定变异逻辑, 提高测试过 (1) 对具体任务高度依赖, 通用性弱, 难以迁移至其他
                 基于任务特性的 程的可控性与效率                                   任务
                 文本变异方法      (2) 有助于生成更贴合任务需求的测试输入, 便于评估被 (2) 需深入理解任务流程与关键语义特征, 设计过程
                             测对象在关键子任务下的表现                          复杂, 增加开发与维护成本
                             (1) 能确保测试用例具备良好的语法正确性和语义流畅 (1) 文本质量与任务需求可能存在冲突, 过度控制反
                 基于语法/语义     性, 贴近真实应用场景, 避免语法错误导致误判                而降低测试用例的多样性
                 控制的文本质量     (2) 可控制语义变异幅度与公平性, 生成更加可靠、适配 (2) 需要精细设计控制策略, 不同任务间难以统一标
                 保障策略
                             性强的高质量测试用例                             准, 实施难度较大
                             (1) 利用人工标注或自动构建的语料库可获得高置信度 (1) 语义差异判断标准难以统一, 有时依赖人为设定
                 基于语料库的测     的参考译文, 测试预言可靠性强                        的阈值
                 试预言构建
                             (2) 不依赖模型内部信息, 可用于黑盒测试                 (2) 语义提取通常依赖外部模型, 可能引入误差干扰
                             (1) 支持覆盖常见错误模式(如遗漏、冗余、歧义), 具备 (1) 高质量语料依赖人工标注或数据爬取与清洗, 成
                 基于句法结构的 较强的问题定位能力                                  本高、领域适应性差
                 测试预言构建      (2) 借助语料库中标注良好的输入输出对, 能直接构造高 (2) 语料匹配方式通常较静态, 难以应对开放场景下
                             精度测试预言                                 多样化的语言输入
                             (1) 可构建语义变化下的输出预期, 辅助验证模型输出是 (1) 常借助词级替换构造语义变化, 难以刻画真实语
                 基于语义变化趋 否随语义调整而改变                                  义空间中的连续演化
                 势的测试预言构建 (2) 不依赖固定标签, 适用于生成类任务中结果多样性高 (2) 语义变化前后的输出预期常依赖人工假设, 缺乏
                             的场景                                    统一标准

                  4.5   小    结
                    综上所述, 当前面向自然语言处理应用的测试用例生成方法在提升输入多样性与捕获错误行为方面取得了初
                 步成效, 但仍面临变异策略与测试预言耦合度高、测试覆盖范围有限等问题. 因此, 未来的研究方向应着重突破当
                 前由测试预言主导变异策略的局限性, 探索更加灵活、多样化的文本变异方法, 使其能够适配不同类型的测试预
                 言和自然语言处理任务. 具体而言, 可以构建通用的文本变异框架, 确保变异策略适用于不同任务, 提高测试方法
                 的适配性和泛化能力; 引入多样化的文本变异方法, 例如结合大语言模型生成自然、合理的变异文本, 以提升输入
                 数据的多样性和真实性; 提升测试自动化和评估手段, 通过自适应变异、数据驱动方法和多级语义分析, 提高测试
                 覆盖率, 并优化变异策略的有效性, 从而进一步扩大测试输入空间的探索范围, 提高测试的全面性和可靠性.

                  5   语音处理应用

                    语音处理通常指将语音信号视为数字信号的一种特例进行处理和研究, 涵盖语音信号的获取、操作、存储、
                 传输和输出等多个方面. 在日常生活中, 常见的语音处理任务包括语音识别、说话人识别等. 在进行分析之前, 语
                 音处理应用首先需要对采集到的语音信号进行语音活性检测, 以确定语音的始末端点, 再实施预加重、分帧、加
                 窗等预处理操作, 以降低人类发声器官和采集设备所带来的混叠、高次谐波失真等因素对语音信号质量的干扰.
                 之后, 以识别为目标的应用程序会逐帧提取语音特征, 传统特征类型包括                       MFCC、PLP、FBANK    等, 并将提取的
                 特征传至解码器进行后续处理操作            [91] . 语音识别是语音处理应用的基础, 以语音翻译系统为代表的语音处理应用
   75   76   77   78   79   80   81   82   83   84   85