Page 86 - 《软件学报》2025年第12期
P. 86
虞圣呈 等: 基于大模型语义匹配的跨平台移动应用测试脚本录制回放 5467
C ∑
(
)
L i = − y i,j log p i,j ,
j=1
其中, L i 是样本 i 的损失值, C 是类别总数. y i,j 是样本 i 的真实标签, 使用 one-hot 编码表示. 如果样本 i 属于类别 j,
则 y i,j = 1, 否则 y i,j = 0. p i,j 是模型对样本 i 预测为类别 j 的概率.
表 1 图标类型匹配模型数据集概况
图标样 图标样 数据集
序号 数据标签 可能代表的含义或用途
式描述 式示例 规模
1 add 加号 856 增加新页面、展开隐藏内容、增加数量等
2 arrow_down 向下箭头 2 155 关注或点击下方内容
返回上一页面、退出当前页面、关注或点击
3 arrow_left 向左箭头 1 576
左方内容
4 check_mark 对勾 1 740 选中某项内容、同意某个请求
5 close 叉 2 376 关闭当前控件或页面、不认可某个内容
6 delete 大部分为垃圾桶 1 406 删除
7 menu 多为三点、三横线或者纸张图标 2 566 菜单、展开隐藏内容
8 settings 多为齿轮图标 2 510 设置
9 share 多为转弯箭头和端点明显的三折线 1 812 分享
10 tag 标签 1 388 标签
11 ticket 票、证、券 1 666 优惠券、证件、钱包、票据、钞票
12 search 大部分为放大镜 1 622 搜索框、搜索操作、查找
13 play 多为顶角向右的等腰三角形 1 100 播放、演唱、演奏、继续放映
14 question 问号 1 360 帮助、求助、显示详细信息
针对模型训练, 我们将所收集到的数据按 7:2:1 的比例分割为训练集、验证集以及测试集. 对于模型中所涉及
的一些超参数信息, 设置如下: 使用 AdaDelta 算法作为优化器, 初始学习率设置为 0.001, 激活函数为 ReLU 函数,
Dropout 率为 0. 5, 批大小 (batch size) 设置为 64. 以上超参数的设置均遵循 VGG16 模型默认设置或参考已有文
献 [51] 进行设置. 完成模型搭建后, 我们进行了 40 次迭代的训练. 训练准确率达到了 92.44%, 测试集准确率为
79.25%. 每次预测仅耗时 0.39 s, 具备可用性.
基于以上介绍, 结合本方法实际需求, 采用基于 VGG16 框架的预训练模型用于图标分类算法.
4.3 文本匹配
文本匹配模块依次通过 OCR 技术和 Sentence Transformers 框架实现文本内容的识别与匹配. OCR 技术提取
图像中的文本信息, Sentence Transformers 生成的文本向量用于语义匹配, 提高了系统在跨平台和跨语言场景中的
适应性.
4.3.1 字符识别
光学字符识别是一种通过计算机技术识别图像中的文字并将其转换成可编辑文本的技术. OCR 技术的应用
范围广泛, 能够理解和处理印刷体或手写体文字, 从而实现自动化的文本识别和处理, 为数字化信息的获取和管理
提供了便利.
OCR 技术的实现通常包括预处理、文本定位、文本分割、特征提取和分类识别步骤. 预处理阶段对输入的

