Page 89 - 《软件学报》2025年第12期

P. 89

5470 软件学报 2025 年第 36 卷第 12 期

图 5 提示词样例

大模型语义匹配模块在录制和回放步骤不对应的情况下, 利用 ChatGPT-4 模型提供智能操作建议. 通过预处
理录制和回放信息, 生成提示输入模型, 获得操作建议并执行相应的回放操作. 该模块能够处理复杂的流程差异,
提高系统的鲁棒性和智能化水平.

5 实验分析

为了评估 LLMRR 方法的有效性, 我们主要针对以下 3 个研究问题开展实验评估.
● RQ1: LLMRR 在整体回放效果上与现有最先进基线方法相比表现如何?
● RQ2: LLMRR 的图文匹配模块在回放效果上与现有最先进基线方法相比表现如何?
● RQ3: LLMRR 的大模型语义匹配模块在回放效果上表现如何?
5.1 实验设置
为评估 LLMRR 有效性, 我们构建了包含覆盖 20 个应用共 100 个测试脚本 (每个应用 5 个测试脚本) 的数据
集来完成实证实验, 这些测试脚本均在安卓、iOS、鸿蒙这 3 个平台中进行录制, 以供后续在另外两个平台上进行
回放实验. 在待测应用选择的过程中, 我们主要参考了现有 GUI 测试脚本录制回放的工作, 如 LIRAT [51] 等. 在现
有工作所使用的待测应用中, 我们进一步验证其可用性, 以剔除因缺乏维护而无法安装或运行的应用. 最终, 我们
确定了如表 2 所示的 20 个待测应用. 这 20 个待测应用覆盖了系统、购物、工具、财务、媒体、运动、开发等多
种类别, 以体现本方法在评估中效果上的泛化性. 测试脚本的开发由 3 名经验丰富的高年级软件工程专业研究生
完成, 所有参与学生均有着至少 3 年的实际工业环境移动应用测试脚本开发与维护工作经验, 足以保证本实验中
所涉及测试脚本与实际工业环境中测试脚本一致. 此外, 我们还要求所有测试脚本必须针对待测应用核心功能业
务进行开发, 而不是边缘功能点, 且每个应用对应的 5 个测试脚本需覆盖待测应用的不同功能, 从而保证实验数据
集的广泛性. 所编写的测试脚本在 iOS、安卓、鸿蒙平台中共分别包含 1 380、1 383、1 397 个测试动作, 测试脚
本中动作序列长度为 10–17 不等, 平均每个脚本步骤数为 13.87. iOS 与安卓、iOS 与鸿蒙、安卓与鸿蒙这 3 个平
台对中分别有 76、75、74 个脚本包含多对多事件映射的情况.
对于消融实验, 我们主要对传统图文匹配方法与大语言模型语义匹配方法进行消融. 传统图文匹配方法与传
统测试脚本录制回放中所采用技术类似, 但我们分别在图像、文本等内容的匹配上进行了创新的设计, 从而提升
无步骤差异情况下的回放成功率. 大语言模型语义匹配是本方法的核心创新点, 有效应对了脚本跨平台回放时存
在的步骤差异情况. 因此, 实验中 RQ2 与 RQ3 分别对这两部分的效果与基线方法进行对比分析.
在实验评估中, 主要选择两种最先进录制回放技术作为所介绍方法的基线方法进行有效性对比: LIRAT [51] 、
MAPIT [15] 以及 AppTestMigrator [52] 这 3 种方法均是当前最先进跨平台测试脚本录制回放方法, 其代表性已得到认
可. LIRAT 主要流程与 LLMRR 相似, 即将用户的操作录制下来, 并保存为特定的测试脚本, 然后在不同的平台上进

84 85 86 87 88 89 90 91 92 93 94