Page 92 - 《软件学报》2025年第12期

P. 92

虞圣呈等: 基于大模型语义匹配的跨平台移动应用测试脚本录制回放 5473

表 4 图文匹配录制回放实验结果

评估指标对比方法 I2A A2I I2H H2I A2H H2A
LLMRR-it 1 171 1 170 1 193 1 181 1 188 1 180
LIRAT 1 108 1 119 1 126 1 133 1 141 1 137
成功步骤数
MAPIT 1 058 1 058 1 048 1 090 1 065 1 079
AppTestMigrator 1 123 1 134 1 150 1 144 1 151 1 160
LLMRR-it 38 39 36 48 44 52
LIRAT 101 90 103 96 91 95
失败步骤数
MAPIT 151 151 181 139 167 153
AppTestMigrator 86 75 79 85 81 72
LLMRR-it 96.9 96.8 97.1 96.1 96.4 95.8
LIRAT 91.6 92.6 91.6 92.2 92.6 92.3
回放成功率 (%)
MAPIT 87.5 87.5 85.3 88.7 86.4 87.6
AppTestMigrator 92.9 93.8 93.6 93.1 93.4 94.2
LLMRR-it 75 74 72 65 72 56
完整脚本回放数 LIRAT 22 23 5 41 25 40
(仅包含一对一回放) MAPIT 9 20 5 19 11 17
AppTestMigrator 31 42 40 39 35 42

回放成功率是评估跨平台录制回放方法的重要指标之一. 表 4 中数据显示, LLMRR-it 方法在各个迁移路径中
的回放成功率均高于基线方法. 例如, 在 I2A 迁移路径中, LLMRR-it 方法的回放成功率为 96.9%, 而基线方法分别
为 91.6%、87.5% 和 92.9%.
完整脚本回放数也是评估跨平台测试方法的重要指标. LLMRR-it 方法在各个迁移路径中的完整脚本回放数
均明显高于基线方法. 例如, 在 I2A 迁移路径中, LLMRR-it 方法成功回放了 75 个完整脚本, 而基线方法分别为
22 个、9 个和 31 个在 H2I 迁移路径中, LLMRR-it 方法成功回放了 65 个完整脚本, 而基线方法分别为 41 个、19
个和 39 个.
对于所有成功回放的 7 083 个步骤, 其中有 5 281 个步骤 (74.56%) 是通过图像匹配得到正确结果, 其余则是通
过文本匹配得到正确结果. 对于失败的步骤, 则是其图像匹配与文本匹配均未得到正确结果, 从而导致回放失败.
我们进一步分析了 LLMRR-it 相对基线方法中所采用图像或文本匹配部分的优势. 针对图像匹配部分, 基线方法
往往主要采用基于图像特征提取的比对, 即 LLMRR-it 中所采用的 SIFT 算法或类似技术. 然而, 此类技术要求能
够在目标控件中采集到足够的特征点, 而部分图标控件中由于其简约的设计, 无法采集到足够用于匹配的特征点
集, 从而导致匹配失败. 在 LLMRR-it 中, 我们进一步采用图标类型进行匹配, 从而提升匹配成功率. 对于文本匹配
部分, 现有方法基本采用文本特征提取以匹配对应文本信息, 但此类算法往往忽略了语义信息, 尤其是在移动应用
场景下的相似语义. 例如, 在某些场景中“提交”与“完成”具有类似的语义. 即完成表单信息的填写后将其由前端页
面发送至服务端处理. 而此类情况的语义相似性无法被基线方法中传统文本匹配算法识别. LLMRR-it 创新地采用
了文本语义匹配模型, 以增强在此类场景下的文本匹配效果. 简单总结来说, LLMRR-it 所采用的图像文本匹配方
法设计弥补了基线方法中相应设计的不足, 有效提升成功率.
综上所述, LLMRR-it 方法在跨平台移动应用测试中具有显著优势, LLMRR-it 方法能够更准确地识别和匹配
不同平台的控件, 显著提高了成功步骤数和回放成功率, 同时减少了失败步骤数, 提升了完整脚本回放数. 这些结
果表明, LLMRR-it 方法在跨平台移动应用测试中具有广阔的应用前景, 能够为开发者提供高效、准确的测试工
具, 从而提升移动应用的质量和用户体验.
5.4 大模型语义匹配消融结果与分析
大模型语义匹配是 LLMRR 方法的核心创新点, 也是 LLMRR 实现多对多事件映射的重要方法设计 (我们用
LLMRR-llm 来表示 LLMRR 的大语言模型语义匹配部分). 表 5 展示了语义匹配录制回放实验的具体结果, 通过对

87 88 89 90 91 92 93 94 95 96 97