Page 287 - 《软件学报》2025年第9期
P. 287

4198                                                       软件学报  2025  年第  36  卷第  9  期


                 据集  ICDAR 2013、TD500  和  TD-TR  上, ST、KA、FitNets 以及  SKD  都能不同程度上提升学生网络的         F1  指标,
                 然而在大一些的数据集如         ICDAR 2015、Total-Text 和  CASIA-10K  上, 绝大多数蒸馏方法难以有效提高学生网络
                 的性能表现, 甚至出现性能下降, 不如直接训练的               baseline, 例如图像分类任务中最常用的软目标知识蒸馏方法.
                 在  CASIA-10K  这类难度更大的数据集上, 教师网络和学生网络之间学习能力差距更加明显, 导致知识迁移的效率
                 降低  [50] , 而  MaskET  在  CASIA-10K  有较大的提升, 这说明通过迁移教师网络的信息熵知识可以一定程度下缓解
                 这个问题.

                                      表 2 MV3-DB   在不同数据集上的知识蒸馏实验结果             (%)

                          ICDAR 2013      TD500        TD-TR       ICDAR 2015    Total-Text   CASIA-10K
                   方法
                          P   R   F1   P    R   F1   P   R   F1   P   R   F1    P   R   F1   P   R   F1
                  baseline  83.7 66.0 73.8  78.7 71.4 74.9  83.6 74.4 78.7  87.1 71.8 78.7  87.2 66.9 75.7  88.1 51.9 65.3
                   ST [4]  82.5 65.8 73.2  77.0 73.0 74.9  84.6 73.5 78.7  85.4 72.2 78.2  87.4 65.3 74.8  88.8 49.4 63.5
                  KA [24]  82.5 66.8 73.8  79.5 71.3 75.2  86.3 72.5 78.8  85.0 73.3 78.7  85.9 66.8 75.2  87.8 51.4 64.8
                  FitNets [8]  84.7 65.4 73.8  78.6 73.3 75.8  85.3 74.0 79.2  85.3 73.3 78.8  87.4 67.5 76.2  88.0 52.3 65.6
                  SKD [25]  82.4 68.8 75.0  81.2 70.6 75.5  84.8 74.5 79.3  87.4 71.6 78.7  87.4 67.0 75.9  88.6 51.6 65.2
                  VID [37]  81.9 69.7 75.3  81.4 71.5 76.1  86.6 72.0 78.6  86.4 72.6 78.9  86.5 66.7 75.3  87.4 50.9 64.3
                   SD [26]  83.5 67.8 74.8  79.4 72.2 75.6  85.0 74.0 79.1  85.1 73.0 78.6  87.0 67.6 76.1  87.1 52.0 65.1
                  SAD [27]  82.8 66.7 73.9  78.7 72.3 75.4  87.3 72.0 78.9  86.7 72.7 79.1  86.5 67.1 75.6  88.4 50.7 64.4
                   CD [48]  83.0 67.2 74.3  79.0 72.3 75.5  83.4 73.2 78.0  86.0 72.9 78.9  86.6 66.5 75.2  87.9 50.5 64.1
                  IFVD [49]  83.3 68.8 75.4  80.0 70.1 74.7  85.3 73.7 79.1  86.8 71.7 78.5  86.1 67.0 75.4  87.3 51.2 64.6
                  MaskET  83.7 69.8 76.1  78.0 74.4 76.2  84.9 74.4 79.3  84.3 75.8 79.8  84.6 70.5 76.9  86.4 55.0 67.2



                                     表 3 MV3-EAST   在不同数据集上的知识蒸馏实验结果             (%)

                                    ICDAR 2013                ICDAR 2015                CASIA-10K
                     方法
                                P       R       F1       P        R       F1       P       R       F1
                    baseline   81.7    64.4     72.0     80.9    75.4    78.0     66.1    64.9     65.5
                     ST [4]    77.8    64.9     70.8     80.9    75.1    77.9     64.7    65.1     64.9
                    KA [24]    78.6    64.0     70.5     78.2    76.4    77.3     67.7    63.0     65.3
                    FitNets [8]  82.4  65.8     73.2     78.0    77.8    77.9     65.4    64.2     64.8
                    SKD [25]   79.5    66.3     72.3     81.9    75.6    78.6     66.6    64.7     65.6
                    VID [37]   80.8    64.8     71.9     81.4    75.3    78.2     65.4    63.9     64.6
                     SD [26]   80.2    63.8     71.1     79.6    74.7    77.1     66.2    63.5     64.8
                    SAD [27]   81.4    65.6     72.6     80.2    76.5    78.3     65.7    64.1     64.9
                     CD [48]   81.7    65.2     72.6     79.0    77.3    78.2     66.7    64.0     65.3
                    IFVD [49]  81.6    65.5     72.7     80.4    76.0    78.1     68.2    62.4     65.2
                    MaskET     82.2    66.3     73.4     81.0    76.9    78.9     69.8    62.9     66.2

                    综上所述, 本文提出的       MaskET  训练方法在多个数据集上均能有效提升学生网络                MV3-DB  和  MV3-EAST  的
                 性能.

                 4.3.2    显著性检验分析
                    为了检验    MaskET  方法的提升效果是否在统计上显著, 本文使用              Wilcoxon 秩和检验进行检验. 具体来说, 我
                 们基于   ICDAR 2013  数据集, 使用每一种蒸馏方法对        MV3-DB  进行训练, 并重复    10  次实验, 统计得到的精确率      P、
                 召回率   R  和  F1. 首先, 比较  MaskET  与对比方法在对应指标上的平均值, 若        MaskET  的平均值小于对比方法, 则不
                 进行检验; 若   MaskET  的平均值大于对比方法, 则进一步检验这种差异是否显著. 以                  MaskET  与  IFVD  在精确率  P
                                                                                           P
                 指标上的检验为例, 检验的原始假设为            H 0 : µ  P  = µ P  , 备选假设为  H 0 : µ P  , µ P  , 其中  µ  代表了对应蒸馏
                                                   MaskET  IFVD            MaskET  IFVD
                 方法在精确率     P  指标上的平均值.
   282   283   284   285   286   287   288   289   290   291   292