Page 281 - 《软件学报》2025年第9期
P. 281

4192                                                       软件学报  2025  年第  36  卷第  9  期


                 心区域熵值低     (包裹的蓝色区域). 由于      DBNet 预测的结果是按比例缩小的, 因此本文将文本区域                (图  2(a) 橙色矩
                 形区域) 对应的信息熵图进行放大, 同时将原图叠加到信息熵图上, 以探究信息熵图和输入图像中的文本框的联
                 系. 观察图  2(e) 和  (f) 可发现, 相较于分割图, 信息熵图放大了模型对边缘的注意力, 并且教师网络的信息熵图形成
                 的边缘比学生网络的熵值图不仅更加接近矩形, 而且更完整地包围文本边缘, 如图                          2(f) 学生网络的信息熵图对字
                 母“E”和“T”的边缘都有所缺失. 另外, 学生网络和教师网络两者的信息熵图混乱程度不同, 学生网络在一些噪声区
                 域  (图  2(d) 红色虚线矩形标注) 也有高熵值.
                    教师网络和学生网络两者之间信息熵图的差别体现了他们检测性能和泛化能力上的差距, 本文通过对学生网
                 络施加教师网络的信息熵监督, 促进学生网络学习教师网络关于文本边缘的信息, 进而提升学生网络检测文本边
                 缘的能力. 同时, 教师网络的信息熵图也存在对噪声区域                (非目标文本区域) 的信息熵值, 本文通过一个掩码             (图  2(c))
                 的操作提炼文本区域的信息熵, 进一步提高学生网络在复杂易混淆的背景下正确检测的能力, 并称这种知识迁移
                 方式为掩码信息熵迁移        (MaskET).
                    本文将信息熵迁移用于文本检测模型, 与第                 2.3  节中提到的变分信息蒸馏         (VID)  [37] 、无数据知识蒸馏
                 (DAFL) [38] 、多教师知识蒸馏   (AKD) [39] 等引入信息熵的知识蒸馏相比较, 其特点在于本文提出的信息熵知识具
                 有实际含义, 信息熵图是监督学生网络训练的知识, 反映了模型对边缘的注意力, 而其他蒸馏方法中的信息熵并
                 没有相对应的具体含义. 例如         VID  利用信息熵推导教师网络和学生网络中间层特征图之间的互信息, 实际上迁
                 移的是教师网络的中间层知识; DAFL           和  AKD  则是用信息熵的值越大, 其混乱程度越高的性质来约束教师网络
                 的输出. 总而言之, VID    等蒸馏方法中的信息熵仅有数学含义, 并没有类似关注文本边缘这样的实际含义, 而本
                 文提出的    MaskET  蒸馏方法充分利用信息熵知识能放大教师网络关于文本边缘注意力的特性, 从而有效提升学
                 生网络的性能表现.

                 3   MaskET  方法

                 3.1   框架介绍
                    图  3 展示本节提出的知识蒸馏框架, 其核心是通过教师网络向学生网络迁移知识来提高学生网络的泛化能力.

                                      C4
                                                          P3
                                       C3
                                                          P2               S
                                                              C    Conv
                                        C2
                                                          P1
                                          C1                     Logit maps   分割图              信息熵图
                                                          P0
                                           C0
                                                                                                   信息熵
                                                 教师网络                      软目标                    迁移损失
                                                                            损失
                                                                                           掩
                    输入图像                 C2                                                码
                                                         P1
                                          C1                              S
                                                         P0  C   Conv
                                            C0
                                        主干网络           承接模块      检测头
                                                                              分割图              信息熵图
                                                 学生网络
                                  C C 拼接    S Softmax      前向传播
                                                                                 Detection loss  标
                                    逐元素乘积       教师网络的监督         标签监督
                                                                                               签
                                          图 3 基于掩码信息熵迁移的知识蒸馏学习框架
   276   277   278   279   280   281   282   283   284   285   286