Page 282 - 《软件学报》2025年第9期
P. 282

陈建炜 等: 基于掩码信息熵迁移的场景文本检测知识蒸馏                                                     4193


                    具体而言, MaskET   训练框架包含两个参数规模不同的文本检测模型, 其中规模较大的作为教师网络, 规模较
                 小的模型则作为学生网络. 教师网络预先进行训练并因为其更深的网络结构表现出良好的效果, 而学生网络通过
                 接受来自教师网络的知识而提高检测精度. 训练图像输入到训练好的教师网络和学生网络, 经过前向传播, 各自输
                 出分割图   (segmentation map). 学生网络的监督信息来自教师网络的知识和标签, 其中教师网络传递给学生网络的
                 知识由两部分构成: (1) 来自教师网络的分割图, 本文使用逐像素点的概率值                    [25] 作为学生网络的软目标; (2) 来自教
                 师网络的掩码信息熵图, 其保留了图像中文本区域的关键信息.

                 3.2   掩码信息熵迁移
                    掩码信息熵迁移方法        (MaskET) 利用教师网络向学生网络迁移其信息熵知识来提高学生网络的性能, 加入掩
                 码的作用是保留教师网络分割图文本周围区域的信息熵, 从而抑制其他可能的噪声区域的信息熵, 使传递给学生
                 网络的信息熵知识更精炼.
                    由第  2  节可知, 信息熵图放大了模型对场景文本边缘的注意力, 并且由于教师网络和学生网络性能的差距, 教
                 师网络的信息熵图形成的边缘比学生网络更加接近矩形, 而且更完整地包围文本边缘. 因此, 向学生网络迁移教师
                 网络的信息熵知识, 有助于提高学生网络对场景文本边缘的注意力, 从而提高学生网络的检测效果.
                    如图  4  所示, 在训练过程中, 教师网络和学生网络输出尺寸相同但精度不同的分割图, 之后两张分割图被转化
                 为信息熵图并分别加入掩码, 得到仅包含文本区域信息熵知识的熵值图. 学生网络通过接受来自教师网络信息熵
                 图的监督进行训练, 具体表现在对训练过程添加信息熵迁移的损失. 这一完整的过程即掩码信息熵迁移                                (MaskET).


                                           教
                                           师
                                           网
                                           络
                                                                 信息熵图         掩
                                                分割图                           码
                                                                     信息熵      信
                                                                    迁移损失      息
                                                                              熵
                                                             掩                迁
                                           学                 码                移
                                           生
                                           网
                                           络
                                                分割图
                                                                 信息熵图
                                                图 4 掩码信息熵迁移的示意图

                 3.3   文本检测模型

                    本文使用图像分割作为教师网络和学生网络的检测框架, 其结构按照功能划分为主干网络、承接模块、检测头.
                    ● 主干网络    (backbone): 整个文本检测模型中参数量最大的部分, 作为核心主干负责提取多层次的图像特征,
                 一般以主干网络大小来区别学生网络和教师网络.
                    ● 承接模块    (neck): 起承上启下的作用, 如图     3  所示, 特征金字塔   (feature pyramid network, FPN) [41] 作为承接模
                 块, 自上而下融合从高层到低层的特征图, 并将拼接的特征图输入到检测头网络中.
                    ● 检测头   (detection head): 主要目的是使用上采样或者转置卷积把特征图放大到和输入图像同样大小, 然后对
                 放大后的图像上的每一个像素点做二分类, 本文将                Softmax  归一化操作之前的特征图记为         logit map, 经过归一化
                 的称为分割图     (segmentation map).
                                     L det  计算如下:
                    模型的检测损失函数

                                                                                                      (1)
                                                       L det = αL s + L o
                 其中,  L s  表示分割图的分类损失, 一般使用交叉熵,         L o  表示非分割图的损失构成, 例如       DBNet 对阈值图    (threshold
   277   278   279   280   281   282   283   284   285   286   287