Page 277 - 《软件学报》2025年第9期
P. 277
4188 软件学报 2025 年第 36 卷第 9 期
entropy and proposes a knowledge distillation method based on mask entropy transfer (MaskET). MaskET combines information entropy
with traditional knowledge distillation methods to increase the amount of information transferred to student networks. Moreover, to
eliminate the interference of background information in images, MaskET only extracts the knowledge within the text area by adding mask
operations. Experiments conducted on six public benchmark datasets, namely ICDAR 2013, ICDAR 2015, TD500, TD-TR, Total-Text and
CASIA-10K, show that MaskET outperforms the baseline model and other knowledge distillation methods. For example, MaskET improves
the F1 score of MobileNetV3-based DBNet from 65.3% to 67.2% on the CASIA-10K dataset.
Key words: natural scene; text detection; knowledge distillation (KD); information entropy
在自然环境中, 场景文本无处不在, 常见于高速公路上的路标、街边的广告牌以及各种产品的包装信息中. 获
取自然场景图像中的文本信息有助于自动导航和定位、智能安防、图像检索等领域的研究.
随着深度全卷积网络 [1] 在图像分割方面取得重大进展 [2] , 图像分割已成为主流文本检测方法的基础框架. 全
卷积网络能够输出逐像素分类结果, 因此更有利于检测出弯曲、多方向等复杂的场景文本. 然而, 该类方法以庞大
的模型参数来换取检测精度的提升, 例如在 ICDAR 2015 数据集上排名前列的 TextFuseNet , 其参数量超过百万, 存
[3]
储内存更是高达 820 MB, 难以应用于计算资源有限的场景. 解决这个问题的一个有效方法便是知识蒸馏 (knowledge
[4]
distillation, KD) .
知识蒸馏通过将预先训练好的大型网络 (教师网络) 的知识转移到小型网络 (学生网络), 从而提高学生网络的
性能表现. 教师网络只在训练学生网络时使用, 最终实际部署只需满足学生网络的计算资源要求, 经过蒸馏训练过
后的学生网络参数量远小于教师网络, 精度也比原先没有蒸馏训练的学生网络高, 在性能和复杂度上达到了较好
的平衡 [5] .
目前, 大多数知识蒸馏方法是为图像分类设计, 而专门针对文本检测模型开发的知识蒸馏方法较少. 由于基于
分割网络的文本检测模型的像素级分类与图像分类有相同之处, 目前业界普遍的做法 [6,7] 是将用于分类的蒸馏方
法直接套用到基于分割的检测模型上. 然而本文发现, 当图像分类的蒸馏方法 [4,6,8] 直接应用在文本检测任务时, 并
不总能表现出理想的效果, 甚至有时会使得学生网络精度下降. 基于分类的知识蒸馏方法一般以迁移教师网络输
出的软目标 (软化概率分布) 知识为主, 对于文本检测这种像素级二分类任务而言, 其概率分布包含的泛化信息严
重不足, 难以有效指导学生网络的训练.
软目标知识的实质是教师网络输出的 logit 经带有温度超参数 T (T 为大于 1 的正数) 的 Softmax 函数“软化”
( ∑ )
后得到的类概率分布 p i = exp(z i /T) exp(z j /T) , 软化的平滑程度与温度 T 有关, T 越大, 分布越平滑. 软化的分
j
布蕴含教师网络丰富的泛化信息, 即类别之间相似性 [4] . 学生网络通过接受教师网络软目标的监督, 可以有效学习
到不同类别间的相似信息, 从而比仅通过硬目标 (one-hot 标签) 训练的效果好. 然而, 学生网络学到的泛化信息量
与类别数有关, 类别数越多, 软化后的概率分布就携带越多的信息, 因此软目标更适合图像多分类问题. 以 CIFAR-10 [9]
图像分类问题为例, 训练的模型 (ResNet101 ) 输出的类概率分布和软化后 (温度 T=5) 的分布如图 1 所示, 在图 1(d)
[10]
软目标分布中, 鹿的概率最高, 其次是狗, 并且误判成狗的可能性远大于车等其他 8 个类别, 说明狗比车更像鹿, 而
车与鹿有较大差距. 实际上, 图 1(a) 中的鹿和狗的确有相似之处, 而默认温度 T 的分布 (图 1(c)) 中, 模型分配给错
误类别的概率接近 0, 难以直接反映出类别间的关联性.
自然场景文本检测任务可以看作是对图像上的每一个像素点做非文本即背景的二分类问题, 对于类别数较少
的任务, 软化后的分布所能得到的类间相似信息便会减少, 甚至无法获得有效信息. 在图 1(b) 文本区域 (图中虚线
矩形框表示) 中, 圆点所示的像素点的概率分布经过温度 T 的软化操作后, 其文本概率从接近 1 (图 1(e)) 降低到靠
近 0.5 (图 1(f)), 相当于原本属于文本区域的点逐渐变成边缘点 (概率值 0.5 的像素点). 在图 1(b) 中, 圆点标注的像
素点属于文本, 与虚线矩形框的边缘点相距较远, 两者之间并没有明显的相似性, 由此可见, 对于文本检测问题, 软
目标提炼的泛化信息量不如图像分类问题.
在知识蒸馏中, 教师网络的知识对学生网络的学习起着至关重要的作用. 对于文本检测任务而言, 学生网络未
能从教师网络的软目标知识中获得足够多的泛化信息, 因此在后续实验中, 和不使用蒸馏训练的 baseline 网络相
比较, 软目标蒸馏方法提升有限. 软目标的泛化信息量不足, 自然而然的想法是加入更多的知识, 以提供更多有用

