Page 279 - 《软件学报》2025年第9期
P. 279

4190                                                       软件学报  2025  年第  36  卷第  9  期


                 检测方法难以区分同个建议框内多个文本的问题. Dai 等人                [21] 在实例分割网络   deep snake [22] 生成的分割图上, 根据
                 文本的中心和大小生成初步建议框, 再将建议框的轮廓逐步回归到文本的轮廓, 缓解了以往图像分割的检测方法
                 对像素级噪声敏感的问题. Liao       等人  [23] 提出可微二值化   (DB) 模块, 该模块将二值化过程集成到分割网络中, 以产
                 生更准确的结果, 同时提出一种高效的自适应尺度融合                  (ASF) 模块, 通过自适应融合不同尺度的特征来提高尺度
                 鲁棒性.
                    基于图像分割或者实例分割的检测方法能进行准确的像素级预测, 更适合检测任意形状的文本, 因而成为基
                 于深度学习的检测方法的主流. 该类文本检测模型大多使用复杂且层数较多的网络来提升检测精度, 需要较大的
                 计算量和存储空间. 然而, 该类模型较少关注如何将其轻量化, 从而更好部署在资源有限的平台上.

                 1.2   知识蒸馏及其在文本检测的应用
                    如何将性能显著但参数量过大的深度网络部署在资源有限的设备上是模型压缩的主要研究问题. 知识蒸馏旨
                 在通过迁移教师网络知识来获得一个精度较高而规模较小的学生网络, 是目前模型压缩的主流解决方案.
                    知识蒸馏的核心思想是构造一种包含教师网络和学生网络的训练框架, 从预先训练好的教师网络中提炼出知
                 识, 将知识作为训练学生网络的额外监督信息来实现知识的迁移. Hinton                   等人  [4] 将软化后的  logit 称为软目标知识,
                 软目标包含不同类别间的相似性信息. Romero 等人              [8] 引入卷积神经网络的中间层输出的特征图, 作为提示信息
                 (hint) 引导学生网络模仿教师网络的特征表达. He 等人            [24] 提出让学生网络学习经过编码器压缩的教师网络的知
                 识. Liu  等人  [25] 将教师网络的特征图和通过对抗式学习获取的信息作为迁移到学生网络的结构化知识. SD                        [26] 使用
                 最深层的分类器作为教师网络, 通过辅助网络指导前面每个残差块的学习, 实现无需教师网络的自蒸馏. SAD                                [27] 将
                 相邻层网络的注意力图作为浅层网络的蒸馏训练目标. 为了解决用于目标检测的蒸馏方法不能有效提取教师网络
                 定位知识的问题, Zheng    等人  [28] 提出了定位蒸馏方法     (localization distillation), 通过有选择性地提取特定区域的语
                 义和定位信息, 将教师网络的定位知识有效地迁移到了学生网络. Zhou                       等人  [29] 提出一种通用的跨模态知识
                 (UniDistill), 将不同模态的知识用统一的鸟瞰视角特征表示, 以实现自动驾驶中的雷达点云和相机图像的跨模态
                 知识蒸馏. Zagoruyko  等人  [30] 将教师网络的中间层特征图按通道计算统计量构建二维的注意力图, 再将注意力从
                 教师网络迁移到学生网络上; 其提出的注意力图和                 Romero 等人  [8] 提出的知识类似, 是一种基于中间特征图的知
                 识, 而非网络输出层. 陈建炜等人         [31] 使用辅助网络将信息熵知识从学生网络的深层往浅层迁移, 实现无需教师网
                 络的自蒸馏; 本文和其不同在于, 提出了掩码操作来提取文本区域的信息熵知识, 且知识来自预先训练好的教师网
                 络, 而非网络自身.
                    目前, 知识蒸馏的应用以计算机视觉任务为主, 并且绝大多数蒸馏方法是为图像分类而设计, 为文本检测领域
                 设计的知识蒸馏方法较少. 现有的研究            [5−7] 侧重于将图像分类的蒸馏方法直接迁移到文本检测任务上, 并取得了一
                 定的成效. Yang  等人  [32] 提出了一种快速文本检测方法, 该检测框架包括一个轻量级的学生网络和一个复杂的教师
                 网络, 借鉴  FitNets 在图像分类上的成功经验, 提取教师网络的中间特征图来指导学生网络的训练, 在准确性和运
                               [8]
                 行效率间取得了更好的平衡. 为了解决基于分割的文本检测方法难以分离过于靠近的文本以及后处理耗时的问
                 题, Yang  等人  [33] 受实例分割网络  YOLACT [34] 的启发, 提出了实时检测网络, 并模仿快照蒸馏方法           [35] , 从先前的迭
                 代模型中提取有用的信息来监督学生网络, 以提高其检测精度. 百度飞桨团队                        [7] 在  PP-OCRv2  的开源  OCR  系统上
                 引入了图像分类领域广泛使用的深度互学习蒸馏方法                   [36] , 其中两个学生网络在训练过程中相互学习对方输出的
                 分割图, 同时增加一个教师网络来指导两个学生网络训练, 以此获得更强大的文本检测模型.

                 1.3   信息熵在知识蒸馏中的应用
                    信息熵在知识蒸馏中常应用于原始软目标蒸馏方法的损失函数, 软目标蒸馏方法通过最小化学生网络的类概
                 率分布与教师网络软化后的分布之间的相对熵                (KL  散度) 来迁移教师网络的知识. 相对熵可以衡量两个分布之间
                 的差异, 因此可以用作软目标的损失函数. 除此之外, 信息熵作为系统的不确定性或者混乱程度的度量, 在变分信
                 息蒸馏   [37] 、无数据蒸馏   [38] 、多教师知识蒸馏    [39] 等蒸馏方法中也有所应用. Ahn        等人  [37] 提出变分信息蒸馏
                 (variational information distillation, VID), VID  将知识迁移过程看作是教师网络和学生网络中间层知识的互信息最
                 大化的过程, 当教师-学生网络之间的互信息最大时, 可以认为学生网络已经完全学到教师网络的知识. Chen 等人                              [38]
   274   275   276   277   278   279   280   281   282   283   284