Page 83 - 《软件学报》2025年第12期

P. 83

5464 软件学报 2025 年第 36 卷第 12 期

4 基于大模型语义匹配的跨平台移动应用测试脚本录制回放方法 LLMRR

为了提高跨平台测试的效率和准确性, 本文提出了基于大模型语义匹配的跨平台移动应用测试脚本录制回放
方法 (LLMRR). 该方法能利用大语言模型的优势, 实现跨平台应用测试脚本的自动录制与回放. 系统输入为用户
在不同平台上的操作行为记录, 输出为测试回放的准确结果和相关详细测试报告. 图 2 展示了该方法的主要框架.
方法主要包括 4 个模块: 脚本录制模块、图像匹配模块、文本匹配模块和大模型语义匹配模块.

脚本录制设备管理脚本回放
事一
件对
信息提取用户操作匹
配一
图像匹配文本匹配
事多
件
匹对
配多
页面信息提示词探索规划
应用截图控件截图操作坐标动作序列 ··· 语义匹配分析构建
图 2 LLMRR 方法架构示意图

如图 2 所示, 该方法的整体流程包括测试脚本的录制阶段和回放阶段. 在录制阶段, 用户通过系统前端进行操
作, 系统实时展示移动设备的屏幕内容. 用户每进行一次操作, 系统都会记录下操作信息, 并保存在测试步骤文件
夹中, 同时截图当前页面并保存操作控件的信息. 在录制阶段, 系统所录制信息主要包括应用截图、控件截图、操
作坐标、动作序列等信息. 其中, 应用截图是回放阶段信息对比的主要参照, 能够确定操作目标坐标信息; 控件截
图可为分析操作类型、在回放设备查找定位目标控件提供对比依据; 操作坐标是回放动作目标的定位依据; 动作
序列记录了操作的具体信息及相应参数, 如“输入”动作所附带的输入文本信息等. 在回放阶段, 系统读取录制的测
试脚本, 在目标设备上逐步回放用户的操作. LLMRR 首先采用图像匹配, 如未匹配到有效结果, 则进行文本匹配.
我们对现有各平台应用进行人工调研以确定这一顺序, 发现现有各平台应用页面设计以丰富的图片信息或各类图
标为主, 这一实践的原因在于图片或图标能够更直观地传达各控件意图, 且相比文字信息来说更为简洁明了. 然而
在重要信息部分或图片图表不足以传达有效信息的部分, 开发者会通过文字信息以表达意图. 当图像、文本匹配
均失败的情况下, LLMRR 将进入大语言模型匹配模块 (如图 1 所示), 通过与大模型的交互以自动识别是否存在步
骤不一致的情况, 从而进行“录制冗余”或“回放冗余”的处理. 大语言模型通过解析当前页面和录制信息语义关联
性, 生成操作建议, 处理录制和回放步骤不一致的问题, 从而确保回放过程的连续性和准确性.
4.1 脚本录制
跨平台录制回放算法的核心功能在于确定录制页面和回放页面中的控件位置, 并执行对应的操作. 在录制回
放模块中, 我们使用系统接口模拟用户操作. 系统在用户启动录制后, 实时展示移动设备的屏幕内容, 记录用户的
每一次操作. 具体包括用户操作的控件信息 (如控件位置、控件类型、操作类型等) 和当前页面的截图. 系统会将
这些操作信息保存在一个测试步骤文件夹中. 系统将用户操作的控件信息和当前页面截图保存为单独的文件, 用
于后续的匹配和回放. 录制的具体步骤如下.
(1) 初始展示: 系统展示移动设备当前页面, 用户可以根据测试意愿进行相应的操作.
(2) 操作记录: 用户执行操作后, 系统保存对应步骤信息, 并在记录操作位置坐标.
(3) 截图保存: 系统调用对应系统接口工具, 截图当前页面并保存.
(4) 控件分割: 系统基于所保存应用页面截图, 使用 Canny 算法进行控件分割, 并根据所记录测试动作信息确
定用户操作控件的位置, 并保留操作控件范围.
上述步骤完成后, 系统允许用户进行下一步操作, 所有操作完成后, 系统将步骤信息汇总为脚本以供回放使

78 79 80 81 82 83 84 85 86 87 88