Page 278 - 《软件学报》2025年第9期
P. 278
陈建炜 等: 基于掩码信息熵迁移的场景文本检测知识蒸馏 4189
的信息来指导学生网络的训练, 例如 FitNets 在软目标知识的基础上, 额外增加教师网络中间特征图知识.
[8]
为此, 本文提出了文本检测模型的信息熵知识, 其灵感来源于对文本检测模型输出的分割图的混乱程度与其
泛化能力强弱之间的分析. 本文在第 3 节通过可视化分析, 说明信息熵知识具有放大检测模型对文本边缘关注的
现实含义. 学生网络相较于教师网络泛化能力差, 主要表现在学生网络预测的文本边缘不如教师网络完整, 而教师
网络的信息熵知识反映了模型对文本边缘的关注, 将其作学生网络额外的“文本边缘”的监督, 促使学生网络预测
的文本框更加完整地包围文本边缘, 从而实现了提升模型泛化性能的目的. 在第 4 节, 本文将信息熵知识作为教师
网络中的迁移对象, 提出了基于掩码信息熵迁移的知识蒸馏方法 (mask entropy transfer, MaskET), 充分利用文本检
测分割图的信息熵知识, 促进学生网络学习教师网络提炼的文本边缘信息. 为了避免背景噪声的干扰, 本文使用掩
码 (mask) 操作提取出文本区域的信息熵, 有效提高了学生网络在复杂背景下正确检测的能力. 在 6 个自然场景文
本检测数据集上的实验表明, MaskET 能显著提升基线文本检测模型的召回率和 F1 得分, 且优于其他蒸馏方法.
例如, MaskET 在 ICDAR 2015 [11] 数据集上将基于 MobileNetV3 的 DBNet 的 F1 得分从 78.7% 提高到 79.8%.
(a) 图像分类实例 (b) 文本检测实例
1.0 1.0
1.0 1.0
0.6
0.8 Category probability 0.8 Category probability 0.8
0.6
Category probability 0.6 Category probability 0.8 0.4 0.4
0.6
0.4
0.4
0.2
0.2
0.2 0.2 0 0
Text Text
0 0 Background Background
plane car bird cat deer dog frog horse ship truck plane car bird cat deer dog frog horse ship truck
Category label Category label
Category label Category label
(c) 图像分类模型输出的概率分布 (d) 软化后的概率分布 (e) 检测模型输出的分布 (f) 软化后的分布
图 1 图像分类与文本检测软目标对比
1 相关工作
1.1 基于深度学习的场景文本检测
基于深度学习的文本检测方法与计算机视觉技术发展息息相关, 随着目标检测、实例分割和图像分割等技术
取得重大突破, 文本检测的研究思路得到了扩展. Liao 等人 [12] 提出可微分阈值算法, 自适应预测每一个像素点的
二值化阈值, 简化分割网络的后处理步骤. Lyu 等人 [13] 修改实例分割网络 Mask R-CNN [14] 的 mask 分支, 以支持文
本实例分割和字符级分割. Zhou 等人 [15] 使用单个卷积网络直接预测图像文本行的方向、角度、四边形坐标以及
分割图, 消除中间步骤, 极大提高检测速度. Tian 等人 [16] 提出使用固定宽度的预选框替换原 Faster R-CNN [17] 中不
同尺度的预选框, 通过将文本行切割成密集细小的预选框, 提高小文本的检测精度. Liao 等人 [18] 修改单阶段目标
检测 SSD [19] 的卷积核及默认框的尺度比例以适应文本行长条形的特点. Qin 等人 [20] 提出 Mask R-CNN [14] 的掩码分
支应该学习预测整个实例的形状, 而不是预测每个像素分类为文本的概率, 从而有效解决了基于实例分割的文本

