Page 283 - 《软件学报》2025年第9期

P. 283

4194 软件学报 2025 年第 36 卷第 9 期

map) 的可微二值化损失 [12] , EAST 对几何图 (geometry map) 的形状损失 [15] , 表示损失的权重系数, 按照相应论文 [12,15]
的最优参数设置.

3.4 损失函数
本文提出的 MaskET 蒸馏方法将教师网络文本区域的信息熵知识迁移到学生网络, 其中信息熵由文本检测模
型的分割图计算得来, MaskET 将信息熵图与掩码相乘, 从而仅保留文本区域的信息熵, 消除背景信息的影响.
给定输入维度为 H×W×3 的图像 I, 其中 H 代表图像高, W 代表图像宽, 3 表示图像通道类型为 RGB, 文本检测
模型对输入图像 I 预测出图像上每一个像素点分类成文本或者背景的概率值, 即检测头输出的分割图形状为
H×W×2, 数字 2 表示分割网络输出两个通道, 一个通道输出图像上每一个像素点属于文本的概率值, 另一个通道
表示像素点属于背景 (非文本区域) 的概率.
根据香农熵的定义, 计算分割图中每一个像素点对应的熵值:

E (h,w) = −(P (h,w,0) log (P (h,w,0) )+ P (h,w,1) log (P (h,w,1) )) (2)
2
2
其中, E (h,w) 表示分割图中位于 (h,w) 像素点的信息熵值, 分别用 E (h,w) 和 E (h,w) 表示教师网络和学生网络的信息熵.
T S
P 表示检测头输出的分割图, 分别用 P T 和 P S 表示教师网络和学生网络的输出.
为了提取文本区域的信息熵, 本文使用与输入图像同样大小的二进制掩码 (mask, M):

{
1, if (h,w) ∈ t
M (h,w) = (3)
0, Otherwise
其中, t 表示文本框, h 和 w 分别代表像素点的纵坐标和横坐标, (h, w) 的像素点如果处于文本区域, 那么 M (h,w) = 1,
否则为 0. 训练时所需要的掩码直接来源于文本检测数据集的标签, 不需要额外的获取代价. 因为 MaskET 方法的
适用对象是自然场景文本检测, 该类任务的数据集的标签代表了图片中的文本区域, 且在训练时已转换为统一大
小的矩阵, 可以直接作为掩码使用, 因此获取掩码不需要额外的代价.
如图 2 所示, 教师网络的信息熵图能够提取到更好的边缘轮廓信息, 因此本章提出的掩码信息熵迁移的知识
蒸馏方法旨在将教师网络的信息熵知识迁移到学生网络. 为最小化学生网络和教师网络两者文本区域上每一个像
素点信息熵的差, 本文使用带有掩码的 L 1 损失来计算其信息熵迁移损失:

1 ∑
L et = M (h,w)

E (h,w) − E (h,w)

(4)
N T S 1
(h,w)
∑
其中, N = M (h,w) , 表示文本区域的像素点个数. 掩码的操作在熵值图上进行, 熵值图的通道数为 1, 掩码和学生、
h,w
教师网络的熵值图差进行点乘, 传递信息量的代价为 O(n). 而其他蒸馏方法大多数需要对齐学生、教师网络的特
征图, 特征图的通道数较高, 所需要的代价将远大于 O(n). 例如, 结构化知识蒸馏 (structured knowledge distillation,
2
SKD) [25] 需要对齐师生网络的中间层特征图的成对相似性, 需要的代价为 O(n ).
与传统图像分类软目标的知识蒸馏方法相似, 本文增加逐像素点分类 [25] 蒸馏损失, 希望学生网络不仅学习到
教师网络局部边缘的信息熵知识, 同时也能模仿教师网络分割图上的概率分布, 用 KL 散度最小化教师网络的分
割图和学生网络的分割图上每一个像素点的分布:

c ( (h,w,i) )
1 ∑∑ P
L pi = P (h,w,i) log T (5)
W × H T P (h,w,i)
(h,w) i=1 S
其中, P (h,w,i) 和 P (h,w,i) 分别表示教师网络和学生网络的分割图上位于 (h, w) 的第 i 个类别的概率值, c 为总类别数,
T S
文本检测任务中固定为 2.
按照原始蒸馏方法的理论, 引入温度超参数 τ 来控制教师网络分割图上每点概率分布的平滑程度, 即:

( )
exp q (h,w,i) /τ
P (h,w,i) = ∑ ( ) (6)
exp q (h,w,i) /τ
i
其中, q (h,w,i) 表示 logit map 上位于 (h, w) 的第 i 个类别的值. 和原始知识蒸馏方法要求 τ 是大于 1 的正数不同, 在

278 279 280 281 282 283 284 285 286 287 288