Page 91 - 《软件学报》2025年第12期
P. 91

5472                                                      软件学报  2025  年第  36  卷第  12  期


                 成功回放了    18  个脚本. 这一趋势在其他迁移路径上也得到了验证. 在鸿蒙到                 iOS (H2I) 和鸿蒙到安卓   (H2A) 的迁
                 移中, LLMRR  方法成功回放了       61  和  56  个脚本, 而基线方法在这些路径中的成功回放数远远不及, 最高仅为                 11
                 个脚本. LLMRR   方法在各平台间迁移中虽仍有一定数量的失败脚本, 但相较于基线方法, 其数量明显较少. 例如,
                 在  I2A  迁移中, LLMRR  的失败脚本数为      35, 而  LIRAT  和  MAPIT  分别为  95  和  97. AppTestMigrator 相比起
                 LIRAT  和  MAPIT  成功率较高, 其可能原因在于其设计目标是在不同应用之间迁移测试脚本, 因此对于多对多事
                 件映射有一定的处理, 但面对较复杂的多对多事件映射, LLMRR                  依然具有较明显的优势.
                    在回放成功率方面, LLMRR       方法在   I2A、A2I、I2H、H2I 等迁移路径上, 回放成功率均在            60%  以上, 最高达
                 到  68%. 相比之下, 基线方法的成功率显著较低, 最高仅为                 19%. 尤其是在鸿蒙相关的迁移路径            (如  H2A、
                 A2H) 中, LLMRR  的成功率分别为     56.0%  和  65.0%, 而基线方法在这些路径上的成功率更是低至            5.0%–18.0%. 对
                 于图文匹配的消融结果, 我们方法的成功率均超过了                  90%, 而大语言模型语义匹配消融结果中, 成功率也均超过
                 了  80%. 然而, 上述结果的实验结果呈现粒度分别为测试事件与多对多事件组, 因此呈现出较好的效果, 也相比基
                 线方法有着较好的改进. 然而, 针对整体实验结果中, 我们方法的回放成功率均大约为                         60%. 值得注意的是, 这一研
                 究问题下的统计视角为整体脚本的回放成功率. 也就是说, 在一个脚本的回放过程中, 只要存在一个步骤的失败,
                 我们即认为该回放失败, 因此, 从最终结果来看, 完整成功回放的脚本次数可能相较步骤粒度的回放成功率略低.
                    特别地, 可以发现      LLMRR  方法在处理鸿蒙系统与其他平台之间的迁移时, 表现尤为突出. 例如, 在鸿蒙到
                 iOS (H2I) 和鸿蒙到安卓   (H2A) 的迁移路径中, LLMRR     方法的成功脚本数和回放成功率均显著高于基线方法, 显
                 示出  LLMRR  方法在应对鸿蒙系统独特的分布式架构特性方面具有较强的适应能力.
                    本文的核心贡献在于利用大语言模型的待测应用业务场景逻辑理解能力, 实现了测试脚本跨平台录制回放中
                 的多对多事件映射问题, 并取得了较好的效果. 现有方法, 如                AppTestMigrator, 虽然在多对多事件映射问题上作了
                 初步的尝试, 但由于其依然缺乏          GUI 控件所包含的丰富的与功能业务逻辑紧密关联的语义信息的理解, 也缺乏领
                 域知识以触发特定路径中的目标            GUI 控件, 从而导致其在大部分多对多事件映射情况下的回放失败. 因此, 我们
                 认为, 本方法所提出的多对多事件映射问题解决方案与传统方法有着本质上的区别, 我们重点关注了多对多事件
                 映射情况中所包含的业务逻辑理解, 从而实现了对应的录制回放, 与现有方法相比, 有着本质上的方法性提升.
                    总结来看, LLMRR    方法在不同平台间的录制回放实验中表现出明显的优势, 特别是在回放成功率和脚本兼
                 容性方面. 通过引入大模型语义匹配模块, LLMRR             能够更好地处理不同平台间的操作流程和控件差异, 提高了测
                 试脚本的适应性和通用性. 这一结果表明, LLMRR             方法在跨平台移动应用测试中具有广阔的应用前景, 能够有效
                 提升测试效率和准确性, 为移动应用的开发和质量保障提供了有力支持.
                  5.3   图文匹配消融结果与分析
                    为进一步评估      LLMRR  各模块方法有效性, 我们在实验评估中还开展了消融实验评估. 表                    4  展示了图文匹配
                 录制回放实验结果, 针对不同平台之间的迁移, 通过对比                 LLMRR (我们用    LLMRR-it, 即  LLMRR-image-and-text
                 来表示   LLMRR  的图像文本匹配部分) 方法与基线方法的对比表现, 分析了图文匹配模块的效果. 在本节的评估
                 中, 我们仅关注测试脚本中可进行一对一映射的测试行为                   (对于可进行一对一映射的测试行为数, iOS           与安卓平台
                 间为  1 209, iOS  与鸿蒙平台间为  1 229, 安卓与鸿蒙平台间为      1 232), 从而展示  LLMRR  图文匹配模块    (LLMRR-it)
                 的有效性. 即, 我们将所有脚本中不满足一对一映射的事件人为剔除以避免多对多事件映射情况对图文匹配消融
                 实验的影响.
                    在成功步骤数方面, LLMRR-it 在所有迁移路径中均具有一定的优势. 例如, 在鸿蒙到安卓                       (H2A) 的迁移路径
                 中, LLMRR-it 方法成功回放了     1 180  个步骤. 这表明, LLMRR-it 方法在处理鸿蒙系统的跨平台迁移时, 能够更准
                 确地识别和匹配不同平台的控件, 从而实现更高的成功步骤数. 与此同时, 在失败步骤数方面, LLMRR-it 方法在鸿
                 蒙相关的迁移路径中也表现出较低的失败率. 例如, 在鸿蒙到安卓                     (H2A) 的迁移路径中, LLMRR-it 方法仅有      52
                 个失败步骤, 而基线方法分别为          95  个、153  个和  72  个失败步骤. 这显示出  LLMRR-it 方法在鸿蒙系统的跨平台操
                 作流程中的稳定性和准确性, 能够有效减少失败步骤数, 提高整体回放效果.
   86   87   88   89   90   91   92   93   94   95   96