Page 281 - 《软件学报》2025年第9期
P. 281
4192 软件学报 2025 年第 36 卷第 9 期
心区域熵值低 (包裹的蓝色区域). 由于 DBNet 预测的结果是按比例缩小的, 因此本文将文本区域 (图 2(a) 橙色矩
形区域) 对应的信息熵图进行放大, 同时将原图叠加到信息熵图上, 以探究信息熵图和输入图像中的文本框的联
系. 观察图 2(e) 和 (f) 可发现, 相较于分割图, 信息熵图放大了模型对边缘的注意力, 并且教师网络的信息熵图形成
的边缘比学生网络的熵值图不仅更加接近矩形, 而且更完整地包围文本边缘, 如图 2(f) 学生网络的信息熵图对字
母“E”和“T”的边缘都有所缺失. 另外, 学生网络和教师网络两者的信息熵图混乱程度不同, 学生网络在一些噪声区
域 (图 2(d) 红色虚线矩形标注) 也有高熵值.
教师网络和学生网络两者之间信息熵图的差别体现了他们检测性能和泛化能力上的差距, 本文通过对学生网
络施加教师网络的信息熵监督, 促进学生网络学习教师网络关于文本边缘的信息, 进而提升学生网络检测文本边
缘的能力. 同时, 教师网络的信息熵图也存在对噪声区域 (非目标文本区域) 的信息熵值, 本文通过一个掩码 (图 2(c))
的操作提炼文本区域的信息熵, 进一步提高学生网络在复杂易混淆的背景下正确检测的能力, 并称这种知识迁移
方式为掩码信息熵迁移 (MaskET).
本文将信息熵迁移用于文本检测模型, 与第 2.3 节中提到的变分信息蒸馏 (VID) [37] 、无数据知识蒸馏
(DAFL) [38] 、多教师知识蒸馏 (AKD) [39] 等引入信息熵的知识蒸馏相比较, 其特点在于本文提出的信息熵知识具
有实际含义, 信息熵图是监督学生网络训练的知识, 反映了模型对边缘的注意力, 而其他蒸馏方法中的信息熵并
没有相对应的具体含义. 例如 VID 利用信息熵推导教师网络和学生网络中间层特征图之间的互信息, 实际上迁
移的是教师网络的中间层知识; DAFL 和 AKD 则是用信息熵的值越大, 其混乱程度越高的性质来约束教师网络
的输出. 总而言之, VID 等蒸馏方法中的信息熵仅有数学含义, 并没有类似关注文本边缘这样的实际含义, 而本
文提出的 MaskET 蒸馏方法充分利用信息熵知识能放大教师网络关于文本边缘注意力的特性, 从而有效提升学
生网络的性能表现.
3 MaskET 方法
3.1 框架介绍
图 3 展示本节提出的知识蒸馏框架, 其核心是通过教师网络向学生网络迁移知识来提高学生网络的泛化能力.
C4
P3
C3
P2 S
C Conv
C2
P1
C1 Logit maps 分割图 信息熵图
P0
C0
信息熵
教师网络 软目标 迁移损失
损失
掩
输入图像 C2 码
P1
C1 S
P0 C Conv
C0
主干网络 承接模块 检测头
分割图 信息熵图
学生网络
C C 拼接 S Softmax 前向传播
Detection loss 标
逐元素乘积 教师网络的监督 标签监督
签
图 3 基于掩码信息熵迁移的知识蒸馏学习框架

