Page 287 - 《软件学报》2025年第9期
P. 287
4198 软件学报 2025 年第 36 卷第 9 期
据集 ICDAR 2013、TD500 和 TD-TR 上, ST、KA、FitNets 以及 SKD 都能不同程度上提升学生网络的 F1 指标,
然而在大一些的数据集如 ICDAR 2015、Total-Text 和 CASIA-10K 上, 绝大多数蒸馏方法难以有效提高学生网络
的性能表现, 甚至出现性能下降, 不如直接训练的 baseline, 例如图像分类任务中最常用的软目标知识蒸馏方法.
在 CASIA-10K 这类难度更大的数据集上, 教师网络和学生网络之间学习能力差距更加明显, 导致知识迁移的效率
降低 [50] , 而 MaskET 在 CASIA-10K 有较大的提升, 这说明通过迁移教师网络的信息熵知识可以一定程度下缓解
这个问题.
表 2 MV3-DB 在不同数据集上的知识蒸馏实验结果 (%)
ICDAR 2013 TD500 TD-TR ICDAR 2015 Total-Text CASIA-10K
方法
P R F1 P R F1 P R F1 P R F1 P R F1 P R F1
baseline 83.7 66.0 73.8 78.7 71.4 74.9 83.6 74.4 78.7 87.1 71.8 78.7 87.2 66.9 75.7 88.1 51.9 65.3
ST [4] 82.5 65.8 73.2 77.0 73.0 74.9 84.6 73.5 78.7 85.4 72.2 78.2 87.4 65.3 74.8 88.8 49.4 63.5
KA [24] 82.5 66.8 73.8 79.5 71.3 75.2 86.3 72.5 78.8 85.0 73.3 78.7 85.9 66.8 75.2 87.8 51.4 64.8
FitNets [8] 84.7 65.4 73.8 78.6 73.3 75.8 85.3 74.0 79.2 85.3 73.3 78.8 87.4 67.5 76.2 88.0 52.3 65.6
SKD [25] 82.4 68.8 75.0 81.2 70.6 75.5 84.8 74.5 79.3 87.4 71.6 78.7 87.4 67.0 75.9 88.6 51.6 65.2
VID [37] 81.9 69.7 75.3 81.4 71.5 76.1 86.6 72.0 78.6 86.4 72.6 78.9 86.5 66.7 75.3 87.4 50.9 64.3
SD [26] 83.5 67.8 74.8 79.4 72.2 75.6 85.0 74.0 79.1 85.1 73.0 78.6 87.0 67.6 76.1 87.1 52.0 65.1
SAD [27] 82.8 66.7 73.9 78.7 72.3 75.4 87.3 72.0 78.9 86.7 72.7 79.1 86.5 67.1 75.6 88.4 50.7 64.4
CD [48] 83.0 67.2 74.3 79.0 72.3 75.5 83.4 73.2 78.0 86.0 72.9 78.9 86.6 66.5 75.2 87.9 50.5 64.1
IFVD [49] 83.3 68.8 75.4 80.0 70.1 74.7 85.3 73.7 79.1 86.8 71.7 78.5 86.1 67.0 75.4 87.3 51.2 64.6
MaskET 83.7 69.8 76.1 78.0 74.4 76.2 84.9 74.4 79.3 84.3 75.8 79.8 84.6 70.5 76.9 86.4 55.0 67.2
表 3 MV3-EAST 在不同数据集上的知识蒸馏实验结果 (%)
ICDAR 2013 ICDAR 2015 CASIA-10K
方法
P R F1 P R F1 P R F1
baseline 81.7 64.4 72.0 80.9 75.4 78.0 66.1 64.9 65.5
ST [4] 77.8 64.9 70.8 80.9 75.1 77.9 64.7 65.1 64.9
KA [24] 78.6 64.0 70.5 78.2 76.4 77.3 67.7 63.0 65.3
FitNets [8] 82.4 65.8 73.2 78.0 77.8 77.9 65.4 64.2 64.8
SKD [25] 79.5 66.3 72.3 81.9 75.6 78.6 66.6 64.7 65.6
VID [37] 80.8 64.8 71.9 81.4 75.3 78.2 65.4 63.9 64.6
SD [26] 80.2 63.8 71.1 79.6 74.7 77.1 66.2 63.5 64.8
SAD [27] 81.4 65.6 72.6 80.2 76.5 78.3 65.7 64.1 64.9
CD [48] 81.7 65.2 72.6 79.0 77.3 78.2 66.7 64.0 65.3
IFVD [49] 81.6 65.5 72.7 80.4 76.0 78.1 68.2 62.4 65.2
MaskET 82.2 66.3 73.4 81.0 76.9 78.9 69.8 62.9 66.2
综上所述, 本文提出的 MaskET 训练方法在多个数据集上均能有效提升学生网络 MV3-DB 和 MV3-EAST 的
性能.
4.3.2 显著性检验分析
为了检验 MaskET 方法的提升效果是否在统计上显著, 本文使用 Wilcoxon 秩和检验进行检验. 具体来说, 我
们基于 ICDAR 2013 数据集, 使用每一种蒸馏方法对 MV3-DB 进行训练, 并重复 10 次实验, 统计得到的精确率 P、
召回率 R 和 F1. 首先, 比较 MaskET 与对比方法在对应指标上的平均值, 若 MaskET 的平均值小于对比方法, 则不
进行检验; 若 MaskET 的平均值大于对比方法, 则进一步检验这种差异是否显著. 以 MaskET 与 IFVD 在精确率 P
P
指标上的检验为例, 检验的原始假设为 H 0 : µ P = µ P , 备选假设为 H 0 : µ P , µ P , 其中 µ 代表了对应蒸馏
MaskET IFVD MaskET IFVD
方法在精确率 P 指标上的平均值.

