Page 290 - 《软件学报》2025年第9期
P. 290

陈建炜 等: 基于掩码信息熵迁移的场景文本检测知识蒸馏                                                     4201


                 4.4   模型复杂度分析
                    深度学习方法在实际应用时, 除了考虑算法的精度, 还要考虑部署环境, 尤其是对实时性要求高的场合, 因此
                 本文从参数量     (parameters)、存储大小  (storage size) 来评估模型占用系统内存大小; 从每秒浮点操作次数            (floating-
                 point operations per second, FLOPs)、每秒传输帧数  (frames per second, FPS) 评价模型的运算量及其前向速度.
                    表  7  是教师网络   ResNet50-DB  和学生网络   MV3-DB  的复杂度对比结果, 其中实验环境与第            5.2  节一致, 在
                 ICDAR 2015  数据集上测试模型推理速度. 可以看到, 学生网络的存储大小                 (storage size) 仅为  3.70 MB, 是教师网
                 络的  1/25, GPU  运算量  (FLOPs) 只有  ResNet50-DB  的  1/15, 推理速度  (FPS) 更是  ResNet50-DB  的  3  倍. MaskET
                 蒸馏训练的学生网络不仅检测精度高, 模型占用的系统内存小, 前向推理速度也较快, 因此较为适合部署在资源受
                 限的嵌入式设备上.

                                           表 7 学生网络与教师网络的模型复杂度对比

                                 模型              FLOPs       Parameters   FPS     Storage size (MB)
                           Teacher (ResNet50-DB)  1 841 959 296  24 640 226  13       94.9
                            MaskET (MV3-DB)    116 313 742    914 488     39          3.70

                    表  8  是学生网络  MV3-DB  和现有文本检测算法       DBNet [12] 和  TextFuseNet 的复杂度对比结果, 可以看出, 现有
                                                                            [3]
                 的文本检测模型大多使用复杂且层数较多的网络来提升检测精度, 这类模型往往需要较大的计算量和存储空间.
                 例如, 基于  ResNet50  的  DBNet 的存储大小  (storage size) 达到了  110.36 MB. 与其相比, 本文的学生网络的存储大
                 小  (storage size) 仅为  3.70 MB, 在模型大小和模型精度之间达到了很好的平衡, 从而可以更好地部署在资源有限
                 的平台上.

                                            表 8 学生网络与现有算法模型复杂度对比

                                  模型              FLOPs      Parameters   FPS     Storage size (MB)
                             MaskET (MV3-DB)    116 313 742   914 488      39         3.70
                             DBNet (ResNet50)  1 862 274 048  24 785 218   15         110.36
                             DBNet (ResNet18)  1 279 331 328  12 269 378   32         52.77
                           TextFuseNet (ResNet101)  2 447 861 928  43 777 346  4.1    872.5

                 4.5   可视化分析

                 4.5.1    特征图可视化
                    为了更直观地分析        MaskET  提升学生网络性能的内部机理, 本文选取              baseline (MV3-DB)、MaskET  和
                 ResNet50-DB, 将它们的融合特征     (图  3  中特征金字塔拼接后的特征图) 进行可视化. 图            7  特征图可视化结果中颜
                 色深浅反映网络关注程度, 图像中的区域颜色越深, 说明网络对此处的激活响应更高, 即对该位置的关注度越高,
                 蓝色越淡表示激活值越低, 可以理解为网络对该位置的像素区域注意力低.
                    从后文图    7  预测结果中可以看到, 学生网络存在误检的情况, 即图中红色矩形标注的区域, 误把另一辆车的车
                 辆当作文本, 而教师网络       ResNet50-DB  和经过  MaskET  训练的模型则没有. 学生网络误检的可能原因是网络在非
                 目标区域的地方也有较高的关注度, 对照特征可视化结果, 网络在“车轮”区域                       (图中黑色椭圆标注) 的颜色深度不
                 亚于文本区域, 因此最终网络输出结果时难以分辨出噪声, 造成误判. 对比                     baseline, 教师网络和  MaskET  学到的特
                 征图不仅背景噪声处激活值低得多, 而且仅在文本区域有较高的响应值. 这说明引入                          MaskET  知识蒸馏方法后, 通
                 过带有掩码操作的信息熵引导学生网络去学习教师网络的文本位置的边缘信息, 忽略背景的信息, 使得学生网络
                 对目标区域有更高的关注度, 抑制对噪声区域的注意力, 有效避免了噪声信息影响到模型的特征学习, 进而提升学
                 生网络的检测性能.

                 4.5.2    与基线模型的检测结果对比
                    除了定量分析      MaskET  的性能提升, 本文从实际检测效果上定性比较            MaskET  和基线模型. 图   8 展示  MV3-DB
   285   286   287   288   289   290   291   292   293   294   295