Page 283 - 《软件学报》2025年第9期
P. 283

4194                                                       软件学报  2025  年第  36  卷第  9  期


                 map) 的可微二值化损失     [12] , EAST  对几何图  (geometry map) 的形状损失  [15] , 表示损失的权重系数, 按照相应论文  [12,15]
                 的最优参数设置.

                 3.4   损失函数
                    本文提出的     MaskET  蒸馏方法将教师网络文本区域的信息熵知识迁移到学生网络, 其中信息熵由文本检测模
                 型的分割图计算得来, MaskET      将信息熵图与掩码相乘, 从而仅保留文本区域的信息熵, 消除背景信息的影响.
                    给定输入维度为      H×W×3  的图像  I, 其中  H  代表图像高, W  代表图像宽, 3   表示图像通道类型为       RGB, 文本检测
                 模型对输入图像      I 预测出图像上每一个像素点分类成文本或者背景的概率值, 即检测头输出的分割图形状为
                 H×W×2, 数字  2  表示分割网络输出两个通道, 一个通道输出图像上每一个像素点属于文本的概率值, 另一个通道
                 表示像素点属于背景       (非文本区域) 的概率.
                    根据香农熵的定义, 计算分割图中每一个像素点对应的熵值:

                                           E (h,w)  = −(P (h,w,0) log (P (h,w,0) )+ P (h,w,1) log (P (h,w,1) ))  (2)
                                                                       2
                                                         2
                 其中,  E  (h,w)   表示分割图中位于  (h,w) 像素点的信息熵值, 分别用    E (h,w)   和  E  (h,w)  表示教师网络和学生网络的信息熵.
                                                                   T      S
                 P 表示检测头输出的分割图, 分别用          P T  和  P S  表示教师网络和学生网络的输出.
                    为了提取文本区域的信息熵, 本文使用与输入图像同样大小的二进制掩码                        (mask, M):

                                                        {
                                                          1,  if (h,w) ∈ t
                                                  M  (h,w)  =                                         (3)
                                                          0,  Otherwise
                 其中, t 表示文本框, h   和  w  分别代表像素点的纵坐标和横坐标, (h, w) 的像素点如果处于文本区域, 那么                 M (h,w)  = 1,
                 否则为   0. 训练时所需要的掩码直接来源于文本检测数据集的标签, 不需要额外的获取代价. 因为                          MaskET  方法的
                 适用对象是自然场景文本检测, 该类任务的数据集的标签代表了图片中的文本区域, 且在训练时已转换为统一大
                 小的矩阵, 可以直接作为掩码使用, 因此获取掩码不需要额外的代价.
                    如图  2  所示, 教师网络的信息熵图能够提取到更好的边缘轮廓信息, 因此本章提出的掩码信息熵迁移的知识
                 蒸馏方法旨在将教师网络的信息熵知识迁移到学生网络. 为最小化学生网络和教师网络两者文本区域上每一个像
                 素点信息熵的差, 本文使用带有掩码的            L 1 损失来计算其信息熵迁移损失:

                                                     1  ∑
                                                 L et =  M (h,w)
 
E  (h,w)  − E  (h,w)
 
            (4)
                                                     N         T    S  1
                                                       (h,w)
                         ∑
                 其中,  N =  M (h,w) , 表示文本区域的像素点个数. 掩码的操作在熵值图上进行, 熵值图的通道数为                    1, 掩码和学生、
                         h,w
                 教师网络的熵值图差进行点乘, 传递信息量的代价为                 O(n). 而其他蒸馏方法大多数需要对齐学生、教师网络的特
                 征图, 特征图的通道数较高, 所需要的代价将远大于               O(n). 例如, 结构化知识蒸馏     (structured knowledge distillation,
                                                                            2
                 SKD) [25] 需要对齐师生网络的中间层特征图的成对相似性, 需要的代价为                 O(n ).
                    与传统图像分类软目标的知识蒸馏方法相似, 本文增加逐像素点分类                       [25] 蒸馏损失, 希望学生网络不仅学习到
                 教师网络局部边缘的信息熵知识, 同时也能模仿教师网络分割图上的概率分布, 用                          KL  散度最小化教师网络的分
                 割图和学生网络的分割图上每一个像素点的分布:

                                                            c       (  (h,w,i)  )
                                                     1  ∑∑           P
                                               L pi =        P (h,w,i)  log  T                        (5)
                                                   W × H      T      P (h,w,i)
                                                        (h,w) i=1     S
                 其中,  P (h,w,i)   和  P (h,w,i)  分别表示教师网络和学生网络的分割图上位于  (h, w) 的第  i 个类别的概率值, c 为总类别数,
                       T     S
                 文本检测任务中固定为        2.
                    按照原始蒸馏方法的理论, 引入温度超参数              τ 来控制教师网络分割图上每点概率分布的平滑程度, 即:

                                                             (      )
                                                           exp q (h,w,i) /τ
                                                   P (h,w,i)  = ∑  (  )                               (6)
                                                            exp q (h,w,i) /τ
                                                          i
                 其中,  q (h,w,i)  表示  logit map  上位于  (h, w) 的第  i 个类别的值. 和原始知识蒸馏方法要求  τ 是大于  1  的正数不同, 在
   278   279   280   281   282   283   284   285   286   287   288