Page 286 - 《软件学报》2025年第9期
P. 286
陈建炜 等: 基于掩码信息熵迁移的场景文本检测知识蒸馏 4197
4.3 对比实验
4.3.1 与其他知识蒸馏方法对比
在本节实验中, 学生网络 (baseline 模型) 的主干网络采用 MobileNetV3, 教师网络则是将主干网络替换为
ResNet50, 在 ICDAR 2013 等 6 个数据集上使用可微二值化 (DB) 作为文本检测分割头 (MV3-DB), 由于 EAST 复
现的精度在 TD500 和 TD-TR 数据集上与原论文差距过大和不支持 Total-Text 这类弯曲文本数据集, 因此仅在
ICDAR 2013、ICDAR 2015 和 CASIA-10K 数据集上进行实验. 本文将 MaskET 和目前学术界广泛使用的 8 种蒸
馏方法进行对比, 比较其在测试集上的精度. 这 8 种蒸馏方法在文本检测模型上的应用设置如下.
[4]
● 软目蒸馏方法 (soft target, ST) : Hinton 等人提到的最原始蒸馏方法, 迁移教师网络输出的温度超参数大于
1 的软化概率分布知识;
[8]
● 中间层知识蒸馏方法 (FitNets) : 不仅利用教师网络的软目标知识, 还用到了中间层的特征图知识;
● 知识适配蒸馏 (knowledge adaptation, KA) [24] : 预先训练的自编码器压缩教师网络的中间特征图知识, 学生网
络再通过适配器来接收教师网络的知识;
● 结构化知识蒸馏 (structured knowledge distillation, SKD) [25] : 使用 KL 散度对齐教师-学生网络分割图上的每
一个像素点概率和教师网络中间层特征图上成对相似性;
● 变分信息蒸馏 (variational information distillation, VID) [37] : 使用变分分布转换教师网络-学生网络特征金字
塔合并后的中间特征图;
● 自蒸馏 (self-distillation, SD) [26] : 在特征金字塔的每一层设置辅助分类器, 从最深层分类器的提炼出软目标
和特征图, 迁移到每个辅助分类器;
● 自我注意力蒸馏 (self attention distillation, SAD) [27] : 将特征金字塔的深层部分的注意图当作蒸馏的知识, 浅
层的网络模仿更深层网络的注意力图, 例如 P1 层的注意力图的蒸馏目标是 P2 层.
● 通道式知识蒸馏 (channel-wise distillation, CD) [48] : 通过带有温度超参数的 Softmax 函数将教师-学生网络中
间特征图和 logit 图的激活值转化为软化概率分布, 并利用 KL 散度对齐.
● 类内特征差异蒸馏 (intra-class feature variation distillation, IFVD) [49] : 通过 IFV 模块构造每张图片内同一类
像素点之间的差异图 (intra-class feature variation map), 并使学生网络模仿教师网络的 IFV 图进行训练.
实验结果如表 2 所示 (最高 F1 值加粗显示), 相较于直接训练的 baseline 模型 (学生网络), MaskET 在各大数
据集上均能显著提升学生网络 MV3-DB 的 F1, 并且优于其他知识蒸馏方法. 在 ICDAR 2013 数据集上 F1 达到
76.1%, 比 baseline 高出 2.3 个百分点, 远超过其他知识蒸馏方法; 其他 5 个数据集也都有 1 个百分点左右的提升. 同
样如表 3 所示 (最高 F1 值加粗显示), 以 MV3-EAST 作为学生网络, 在 ICDAR 2013、ICDAR 2015 和 CASIA-10K
数据集上, MaskET 方法均有可观的性能提升, F1 分别有 1.4%、0.9% 和 0.7% 的提高. 表 2、表 3 的实验结果为对
应论文中的图像分类蒸馏方法在 DB 和 EAST 文本检测模型上复现的结果.
对比表 2 和表 3, MaskET 在 MV3-EAST 上的提升效果相对较小. 在 CASIA-10K 数据集上, MV3-DB 高出 base-
line 有 1.9 个百分点, 但 MV3-EAST 仅有 0.7 个点的提升. 由于学生网络 MV3-EAST 和教师网络 ResNet50-DB 两
者分割图的分辨率不一致, 为了能够计算两者的信息熵差, 教师网络的分割图通过池化的操作, 缩小至与 MV3-EAST
分割图相同的尺寸, 因此计算信息熵图时丢失了部分信息, 而 MV3-DB 不需要缩放分割图, 因而效果更好.
表 2 和表 3 的实验结果也反映 MaskET 虽然能提升 F1 值和召回率, 但精确率也有所下降, 第 4.4 节消融实验
中的第 4.4.3 节也证明了该结论. 其原因在于信息熵损失函数仅考虑学生网络和教师网络预测一致的正样本损失,
未惩罚学生网络误检下的信息熵损失, 导致学生网络检测框数量增多, 进而导致 TP 样本和 FP 样本增大. 根据评
价指标的计算公式 (9)–公式 (11), 可知检测框数量|D|增多, |T P |自然会增加, 召回率也随之提高, 同时|T P |提高的幅
度没有|D|大, 因此精确率降低. 但是, 绝大多数情况下 MaskET 会大幅提升 baseline 模型的召回率, 虽然精确率有
所下降, 但综合评价指标 F1 值是提高的.
从表 2 和表 3 的结果可以看出, 在不同规模大小的数据集上其他蒸馏方法难有一致的性能提升. 在小规模数

