Page 94 - 《软件学报》2025年第12期

P. 94

虞圣呈等: 基于大模型语义匹配的跨平台移动应用测试脚本录制回放 5475

6.2 局限性分析
尽管 LLMRR 方法在跨平台移动应用测试中展现了诸多优势, 但它也存在一定的局限性和不足之处. 首先, 图
像文本匹配时存在算法的不精准情况. 尽管 LLMRR 方法结合了多种图像匹配算法, 但在实际应用中仍可能存在
匹配不精准的情况, 尤其是在图像质量较低或界面设计差异较大时, 匹配效果可能会受到影响. OCR 技术在文本
识别过程中可能会出现识别错误或遗漏, 而 Sentence Transformers 模型在进行文本匹配时, 也可能因为训练数据
的局限性导致匹配不准确. 其次, 大语言模型在生成操作建议时, 可能会出现幻觉问题, 即生成的内容与实际情况
不符. 这可能导致业务逻辑判断不准确, 影响测试结果的可靠性. 大语言模型的判断依赖于训练数据和提示信息,
如果提示信息不准确或不完整, 模型可能会产生错误的判断, 影响回放效果. 在实验过程中, 为保证实验结果可靠
性, 我们未进行人工干预, 而是直接记录最真实的实验结果. 第三, 大模型对于测试脚本文本的分析能力足够鲁棒,
但对于应用页面图像信息的捕获存在障碍. 不同平台和应用的界面的设计差异、应用页面的动态变化 (如动画效
果、弹出窗口等)、部分控件的视觉细节差异微小难以识别等图像信息的多样性和复杂性, 增加了图像匹配的难
度, 使得大模型无法准确捕获和处理这些信息, 进而影响回放的准确性和完整性.
6.3 有效性威胁分析
在软件测试的录制回放过程中, 特别是大模型语义匹配的跨平台移动应用测试脚本录制回放中, 为了保证系
统能够在不同平台和不同测试条件下都能够稳定、准确地运行, 本研究对可能出现的有效性威胁进行处理, 尽可
能降低其对于本研究试验结果的影响. 本节将详细探讨所提出方法的有效性威胁分析.
首先, 外部有效性的主要威胁来源于实验应用的收集. 在本研究中, 我们收集了有限的应用以供实验验证. 在
应用收集过程中, 首先参考了已有相关研究的实验中所选取应用, 并排除其中已过时的应用. 其次, 我们所收集的
应用包含开源应用和商业应用, 并覆盖了不同的应用类型, 从而保证了方法泛化能力的验证, 因此, 我们认为上述
做法已尽可能消除了实验的外部有效性威胁.
其次, 内部有效性的主要威胁来源于图像匹配算法和文本匹配算法中相关超参数的设置. 为缓解这一威胁, 我
们将所有超参数设置为其默认值, 或参考已有相关研究中相同场景下对应模型超参数设置. 对于没有可供参考的
超参数设置, 我们进行小规模实验以选择最优的超参数设置. 通过以上做法, 我们认为已经最大程度地消除了实验
的内部有效性威胁.
第三, 我们所选取的基线方法可能会对实验结果造成有效性威胁, 但所选取的基线研究均为当前最先进且具
有代表性的移动应用测试脚本录制回放方法, 与其相比能够充分表现本文所提出方法的有效性.
6.4 性能开销分析
由于 LLMRR 方法采用了图文匹配和大模型语义匹配的多层次策略, 所以在测试时间和效率上相较于现有的
先进方法表现出了突出优势. 通过实验得到, LLMRR 在图文匹配上的平均每个步骤处理时间为 2.5 s, 相比之下,
LIRAT 方法为 4.3 s, MAPIT 方法为 5.6 s, LLMRR 明显更为高效. 图文匹配的快速响应不仅提高了整体测试流程
的流畅性, 还减少了测试的等待时间. 此外, 在多对多事件映射时, LLMRR 每个多对多事件映射匹配对的匹配时
间为 7.5 s (包含所有步骤, 如 API 调用等), 若按最终回放步骤数计算平均时间, 整体平均每步仅需 3.9 s. 由此可见,
LLMRR 方法在保持高效和准确的同时, 缩短了每个测试步骤的处理时间, 提高了整体测试效率. 我们相信, 随着
LLMRR 方法的进一步优化和完善, 其在未来将继续保持在跨平台移动应用测试中的领先地位, 提供更高效和智
能的测试解决方案.
6.5 未来工作展望
本文相关实验有力证明了基于大模型语义匹配的跨平台移动应用测试脚本录制回放方法在解决跨平台应用
测试中流程差异问题方面的显著优势. 然而, 通过上文局限性分析, 我们认为本方法还可以进行改进.
首先, 本文使用的大模型为 ChatGPT-4, 是目前全球领先的大语言模型. 未来, 随着人工智能的持续发展, 很可
能会有更多更先进的大模型问世. 本方法可以通过使用更先进的模型, 更准确地理解用户的意图, 并生成更为精确

89 90 91 92 93 94 95 96 97 98 99