Page 290 - 《软件学报》2025年第9期
P. 290
陈建炜 等: 基于掩码信息熵迁移的场景文本检测知识蒸馏 4201
4.4 模型复杂度分析
深度学习方法在实际应用时, 除了考虑算法的精度, 还要考虑部署环境, 尤其是对实时性要求高的场合, 因此
本文从参数量 (parameters)、存储大小 (storage size) 来评估模型占用系统内存大小; 从每秒浮点操作次数 (floating-
point operations per second, FLOPs)、每秒传输帧数 (frames per second, FPS) 评价模型的运算量及其前向速度.
表 7 是教师网络 ResNet50-DB 和学生网络 MV3-DB 的复杂度对比结果, 其中实验环境与第 5.2 节一致, 在
ICDAR 2015 数据集上测试模型推理速度. 可以看到, 学生网络的存储大小 (storage size) 仅为 3.70 MB, 是教师网
络的 1/25, GPU 运算量 (FLOPs) 只有 ResNet50-DB 的 1/15, 推理速度 (FPS) 更是 ResNet50-DB 的 3 倍. MaskET
蒸馏训练的学生网络不仅检测精度高, 模型占用的系统内存小, 前向推理速度也较快, 因此较为适合部署在资源受
限的嵌入式设备上.
表 7 学生网络与教师网络的模型复杂度对比
模型 FLOPs Parameters FPS Storage size (MB)
Teacher (ResNet50-DB) 1 841 959 296 24 640 226 13 94.9
MaskET (MV3-DB) 116 313 742 914 488 39 3.70
表 8 是学生网络 MV3-DB 和现有文本检测算法 DBNet [12] 和 TextFuseNet 的复杂度对比结果, 可以看出, 现有
[3]
的文本检测模型大多使用复杂且层数较多的网络来提升检测精度, 这类模型往往需要较大的计算量和存储空间.
例如, 基于 ResNet50 的 DBNet 的存储大小 (storage size) 达到了 110.36 MB. 与其相比, 本文的学生网络的存储大
小 (storage size) 仅为 3.70 MB, 在模型大小和模型精度之间达到了很好的平衡, 从而可以更好地部署在资源有限
的平台上.
表 8 学生网络与现有算法模型复杂度对比
模型 FLOPs Parameters FPS Storage size (MB)
MaskET (MV3-DB) 116 313 742 914 488 39 3.70
DBNet (ResNet50) 1 862 274 048 24 785 218 15 110.36
DBNet (ResNet18) 1 279 331 328 12 269 378 32 52.77
TextFuseNet (ResNet101) 2 447 861 928 43 777 346 4.1 872.5
4.5 可视化分析
4.5.1 特征图可视化
为了更直观地分析 MaskET 提升学生网络性能的内部机理, 本文选取 baseline (MV3-DB)、MaskET 和
ResNet50-DB, 将它们的融合特征 (图 3 中特征金字塔拼接后的特征图) 进行可视化. 图 7 特征图可视化结果中颜
色深浅反映网络关注程度, 图像中的区域颜色越深, 说明网络对此处的激活响应更高, 即对该位置的关注度越高,
蓝色越淡表示激活值越低, 可以理解为网络对该位置的像素区域注意力低.
从后文图 7 预测结果中可以看到, 学生网络存在误检的情况, 即图中红色矩形标注的区域, 误把另一辆车的车
辆当作文本, 而教师网络 ResNet50-DB 和经过 MaskET 训练的模型则没有. 学生网络误检的可能原因是网络在非
目标区域的地方也有较高的关注度, 对照特征可视化结果, 网络在“车轮”区域 (图中黑色椭圆标注) 的颜色深度不
亚于文本区域, 因此最终网络输出结果时难以分辨出噪声, 造成误判. 对比 baseline, 教师网络和 MaskET 学到的特
征图不仅背景噪声处激活值低得多, 而且仅在文本区域有较高的响应值. 这说明引入 MaskET 知识蒸馏方法后, 通
过带有掩码操作的信息熵引导学生网络去学习教师网络的文本位置的边缘信息, 忽略背景的信息, 使得学生网络
对目标区域有更高的关注度, 抑制对噪声区域的注意力, 有效避免了噪声信息影响到模型的特征学习, 进而提升学
生网络的检测性能.
4.5.2 与基线模型的检测结果对比
除了定量分析 MaskET 的性能提升, 本文从实际检测效果上定性比较 MaskET 和基线模型. 图 8 展示 MV3-DB

