Page 92 - 《软件学报》2025年第12期
P. 92

虞圣呈 等: 基于大模型语义匹配的跨平台移动应用测试脚本录制回放                                                5473



                                               表 4 图文匹配录制回放实验结果

                       评估指标              对比方法          I2A      A2I      I2H     H2I      A2H     H2A
                                         LLMRR-it      1 171    1 170   1 193    1 181    1 188   1 180
                                          LIRAT        1 108    1 119   1 126    1 133    1 141   1 137
                      成功步骤数
                                          MAPIT        1 058    1 058   1 048    1 090    1 065   1 079
                                       AppTestMigrator  1 123   1 134   1 150    1 144    1 151   1 160
                                         LLMRR-it       38       39      36       48       44      52
                                          LIRAT        101       90      103      96       91      95
                      失败步骤数
                                          MAPIT        151      151      181     139      167      153
                                       AppTestMigrator  86       75      79       85       81      72
                                         LLMRR-it      96.9     96.8     97.1    96.1     96.4     95.8
                                          LIRAT        91.6     92.6     91.6    92.2     92.6     92.3
                     回放成功率 (%)
                                          MAPIT        87.5     87.5     85.3    88.7     86.4     87.6
                                       AppTestMigrator  92.9    93.8     93.6    93.1     93.4     94.2
                                         LLMRR-it       75       74      72       65       72      56
                     完整脚本回放数              LIRAT         22       23       5       41       25      40
                   (仅包含一对一回放)             MAPIT         9        20       5       19       11      17
                                       AppTestMigrator  31       42      40       39       35      42

                    回放成功率是评估跨平台录制回放方法的重要指标之一. 表                    4  中数据显示, LLMRR-it 方法在各个迁移路径中
                 的回放成功率均高于基线方法. 例如, 在           I2A  迁移路径中, LLMRR-it 方法的回放成功率为        96.9%, 而基线方法分别
                 为  91.6%、87.5%  和  92.9%.
                    完整脚本回放数也是评估跨平台测试方法的重要指标. LLMRR-it 方法在各个迁移路径中的完整脚本回放数
                 均明显高于基线方法. 例如, 在        I2A  迁移路径中, LLMRR-it 方法成功回放了        75  个完整脚本, 而基线方法分别为
                 22  个、9  个和  31  个 在  H2I 迁移路径中, LLMRR-it 方法成功回放了   65  个完整脚本, 而基线方法分别为         41  个、19
                 个和  39  个.
                    对于所有成功回放的        7 083  个步骤, 其中有  5 281  个步骤  (74.56%) 是通过图像匹配得到正确结果, 其余则是通
                 过文本匹配得到正确结果. 对于失败的步骤, 则是其图像匹配与文本匹配均未得到正确结果, 从而导致回放失败.
                 我们进一步分析了       LLMRR-it 相对基线方法中所采用图像或文本匹配部分的优势. 针对图像匹配部分, 基线方法
                 往往主要采用基于图像特征提取的比对, 即              LLMRR-it 中所采用的    SIFT  算法或类似技术. 然而, 此类技术要求能
                 够在目标控件中采集到足够的特征点, 而部分图标控件中由于其简约的设计, 无法采集到足够用于匹配的特征点
                 集, 从而导致匹配失败. 在      LLMRR-it 中, 我们进一步采用图标类型进行匹配, 从而提升匹配成功率. 对于文本匹配
                 部分, 现有方法基本采用文本特征提取以匹配对应文本信息, 但此类算法往往忽略了语义信息, 尤其是在移动应用
                 场景下的相似语义. 例如, 在某些场景中“提交”与“完成”具有类似的语义. 即完成表单信息的填写后将其由前端页
                 面发送至服务端处理. 而此类情况的语义相似性无法被基线方法中传统文本匹配算法识别. LLMRR-it 创新地采用
                 了文本语义匹配模型, 以增强在此类场景下的文本匹配效果. 简单总结来说, LLMRR-it 所采用的图像文本匹配方
                 法设计弥补了基线方法中相应设计的不足, 有效提升成功率.
                    综上所述, LLMRR-it 方法在跨平台移动应用测试中具有显著优势, LLMRR-it 方法能够更准确地识别和匹配
                 不同平台的控件, 显著提高了成功步骤数和回放成功率, 同时减少了失败步骤数, 提升了完整脚本回放数. 这些结
                 果表明, LLMRR-it 方法在跨平台移动应用测试中具有广阔的应用前景, 能够为开发者提供高效、准确的测试工
                 具, 从而提升移动应用的质量和用户体验.
                  5.4   大模型语义匹配消融结果与分析
                    大模型语义匹配是       LLMRR  方法的核心创新点, 也是        LLMRR  实现多对多事件映射的重要方法设计             (我们用
                 LLMRR-llm  来表示  LLMRR  的大语言模型语义匹配部分). 表        5  展示了语义匹配录制回放实验的具体结果, 通过对
   87   88   89   90   91   92   93   94   95   96   97