Page 93 - 《软件学报》2025年第12期

P. 93

5474 软件学报 2025 年第 36 卷第 12 期

比 3 种不同方法对于所有测试脚本中所有步骤在不同迁移途径中的表现, 进一步分析了语义匹配模块在跨平台录
制回放中的有效性. 其中, “不适用匹配数”指采用图文匹配完成匹配的步骤数量.

表 5 大模型语义匹配录制回放实验结果

评估指标对比方法 I2A A2I I2H H2I A2H H2A
LLMRR-llm 63 64 63 66 64 60
LIRAT 0 0 0 0 0 0
成功匹配数
MAPIT 0 0 0 0 0 0
AppTestMigrator 13 15 13 10 12 10
LLMRR-llm 13 12 12 9 10 14
LIRAT 76 76 75 75 74 74
失败匹配数
MAPIT 76 76 75 75 74 74
AppTestMigrator 63 61 62 65 62 64
不适用匹配数 ALL 24 24 25 25 26 26
LLMRR-llm 82.9 84.2 84.0 88.0 86.5 81.1
LIRAT －－－－－－
回放成功率 (%)
MAPIT －－－－－－
AppTestMigrator 17.1 19.7 17.3 13.3 16.2 13.5

在语义匹配方面, 相比其他两种方法, LLMRR-llm 方法在所有迁移路径中均表现出压倒性优势. 例如, 在鸿蒙
到 iOS (H2I) 的迁移路径中, 在 76 个步骤中 LLMRR-llm 方法一共成功匹配了 66 个步骤, 回放成功率达到 88%,
而 LIRAT 和 MAPIT 均为 0 个, 完全无法进行有效的语义匹配. 通过大语言模型语义匹配的多对多事件映射, 其失
败案例均由大模型的幻觉引起, 大模型往往会产生一个自认为正确但实际回放无法执行的结果. 这表明 LLMRR-
llm 方法在处理测试脚本的跨平台迁移时, 能够更有效地进行语义匹配, 确保有效的匹配. 而 AppTestMigrator 在多
对多事件映射中相比较 LIRAT 和 MAPIT 表现出了一定的优势, 其主要设计目的为在不同待测应用中迁移相似功
能的测试脚本, 因此能够一定程度上具有多对多事件映射的能力. 但由于其未针对多对多事件映射问题涉及特定
策略, 依然在测试脚本录制回放中稍逊于 LLMRR-llm 的回放准确率.
上述分析表明, LLMRR-llm 方法在跨平台移动应用测试中展现出卓越的性能. 通过集成大模型语义匹配模块,
LLMRR-llm 方法能够更精确地进行语义匹配, 这一点是 LIRAT 和 MAPIT 方法所无法实现的. LLMRR-llm 方法
的大模型语义匹配模块显著提高了成功匹配数和回放成功率, 同时大幅减少了失败匹配数和不适用匹配数.
LLMRR 方法为开发者提供了一种高效且精准的测试工具, 能够有效地完成语义匹配的任务, 在未来的跨平台移
动应用测试中具有巨大的应用潜力.
6 讨论

6.1 优势分析
LLMRR 通过引入大模型语义匹配方法进行跨平台移动应用测试脚本录制回放, 在应对不同平台的操作流程
差异时展现了显著优势. 首先, LLMRR 方法结合了模板匹配、SIFT 匹配和图标类型匹配等多种算法, 这种多层次
的图像匹配策略能够在不同平台和复杂条件下实现高精度的控件匹配, 从而提高了跨平台测试脚本的准确回放.
其次, LLMRR 方法利用了大语言模型的强大语义理解和推理能力, 可以准确分析测试脚本业务逻辑, 通过解析录
制步骤和回放页面的信息来生成操作建议, 有效应对录制冗余和回放冗余问题, 确保回放过程的连续性和准确性.
另外, 通过大语言模型可以与应用回放时实时状态进行有效对比, 实现冗余测试行为丢弃与隐藏测试行为补足, 从
而提高测试脚本的适应性和有效性. 第三, 与传统的“一对一”映射不同, 引入大模型后的 LLMRR 方法实现了多对
多事件映射, 即若干录制步骤可能对应多个不等数量的回放步骤. 这种多对多映射模式能够更灵活地处理不同平
台间的流程差异和控件差异, 显著提高了测试脚本的通用性和适应性.

88 89 90 91 92 93 94 95 96 97 98