Page 86 - 《软件学报》2025年第12期
P. 86

虞圣呈 等: 基于大模型语义匹配的跨平台移动应用测试脚本录制回放                                                5467



                                                          C ∑
                                                                (
                                                                   )
                                                     L i = −  y i,j log p i,j ,
                                                          j=1
                 其中,  L i  是样本  i 的损失值, C  是类别总数.  y i,j  是样本  i 的真实标签, 使用  one-hot 编码表示. 如果样本  i 属于类别  j,
                 则  y i,j  = 1, 否则 y i,j  = 0.   p i,j  是模型对样本  i 预测为类别  j 的概率.


                                              表 1 图标类型匹配模型数据集概况

                                           图标样              图标样    数据集
                  序号    数据标签                                                     可能代表的含义或用途
                                           式描述              式示例     规模
                   1      add               加号                       856  增加新页面、展开隐藏内容、增加数量等
                   2   arrow_down         向下箭头                      2 155         关注或点击下方内容
                                                                          返回上一页面、退出当前页面、关注或点击
                   3    arrow_left        向左箭头                      1 576
                                                                                      左方内容
                   4   check_mark           对勾                      1 740     选中某项内容、同意某个请求

                   5     close               叉                      2 376  关闭当前控件或页面、不认可某个内容
                   6     delete         大部分为垃圾桶                     1 406              删除
                   7     menu     多为三点、三横线或者纸张图标                    2 566         菜单、展开隐藏内容

                   8     settings        多为齿轮图标                     2 510              设置
                   9     share    多为转弯箭头和端点明显的三折线                   1 812              分享
                   10     tag               标签                      1 388              标签
                   11    ticket           票、证、券                     1 666    优惠券、证件、钱包、票据、钞票

                   12    search         大部分为放大镜                     1 622       搜索框、搜索操作、查找
                   13     play      多为顶角向右的等腰三角形                    1 100     播放、演唱、演奏、继续放映
                   14   question            问号                      1 360      帮助、求助、显示详细信息

                    针对模型训练, 我们将所收集到的数据按             7:2:1  的比例分割为训练集、验证集以及测试集. 对于模型中所涉及
                 的一些超参数信息, 设置如下: 使用          AdaDelta 算法作为优化器, 初始学习率设置为          0.001, 激活函数为  ReLU  函数,
                 Dropout 率为  0. 5, 批大小  (batch size) 设置为  64. 以上超参数的设置均遵循   VGG16  模型默认设置或参考已有文
                 献  [51] 进行设置. 完成模型搭建后, 我们进行了          40  次迭代的训练. 训练准确率达到了 92.44%, 测试集准确率为
                 79.25%. 每次预测仅耗时    0.39 s, 具备可用性.
                    基于以上介绍, 结合本方法实际需求, 采用基于              VGG16  框架的预训练模型用于图标分类算法.
                  4.3   文本匹配
                    文本匹配模块依次通过         OCR  技术和  Sentence Transformers 框架实现文本内容的识别与匹配. OCR       技术提取
                 图像中的文本信息, Sentence Transformers 生成的文本向量用于语义匹配, 提高了系统在跨平台和跨语言场景中的
                 适应性.
                  4.3.1    字符识别
                    光学字符识别是一种通过计算机技术识别图像中的文字并将其转换成可编辑文本的技术. OCR                                技术的应用
                 范围广泛, 能够理解和处理印刷体或手写体文字, 从而实现自动化的文本识别和处理, 为数字化信息的获取和管理
                 提供了便利.
                    OCR  技术的实现通常包括预处理、文本定位、文本分割、特征提取和分类识别步骤. 预处理阶段对输入的
   81   82   83   84   85   86   87   88   89   90   91