Page 276 - 《软件学报》2025年第9期
P. 276

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(9):4187−4206 [doi: 10.13328/j.cnki.jos.007264] [CSTR: 32375.14.jos.007264]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                         *
                 基于掩码信息熵迁移的场景文本检测知识蒸馏

                 陈建炜  1 ,    沈英龙  1 ,    杨    帆  1,2 ,    赖永炫  3


                 1
                  (厦门大学 自动化系, 福建 厦门 361005)
                 2
                  (厦门大学深圳研究院, 广东 深圳 518057)
                 3
                  (厦门大学 软件工程系, 福建 厦门 361005)
                 通信作者: 杨帆, E-mail: yang@xmu.edu.cn

                 摘 要: 自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度, 需要较大的计算量和存
                 储空间, 难以部署到计算资源有限的嵌入式设备上. 知识蒸馏可通过引入与教师网络相关的软目标信息, 辅助训练
                 轻量级的学生网络, 实现模型压缩. 然而, 现有的知识蒸馏方法主要为图像分类任务而设计, 提取教师网络输出的
                 软化概率分布作为知识, 其携带的信息量与类别数目高度相关, 当应用于文本检测的二分类任务时会存在信息量
                 不足的问题. 为此, 针对场景文本检测问题, 定义一种新的信息熵知识, 并以此为基础提出基于掩码信息熵迁移的
                 知识蒸馏方法     (mask entropy transfer, MaskET). MaskET  在传统蒸馏方法的基础上引入信息熵知识, 以增加迁移到
                 学生网络的信息量; 同时, 为了消除图像中背景信息的干扰, MaskET                 通过添加掩码的方法, 仅提取文本区域的信息
                 熵知识. 在  ICDAR 2013、ICDAR 2015、TD500、TD-TR、Total-Text 和  CASIA-10K  这  6 个公开标准数据集上的实验
                 表明, MaskET  方法优于基线模型和其他知识蒸馏方法. 例如, MaskET            在  CASIA-10K 数据集上将基于     MobileNetV3
                 的  DBNet 的  F1  得分从  65.3%  提高到  67.2%.
                 关键词: 自然场景; 文本检测; 知识蒸馏; 信息熵
                 中图法分类号: TP18

                 中文引用格式: 陈建炜, 沈英龙, 杨帆, 赖永炫. 基于掩码信息熵迁移的场景文本检测知识蒸馏. 软件学报, 2025, 36(9): 4187–4206.
                 http://www.jos.org.cn/1000-9825/7264.htm
                 英文引用格式: Chen JW, Shen YL, Yang F, Lai YX. Knowledge Distillation for Scene Text Detection via Mask Information Entropy
                 Transfer. Ruan Jian Xue Bao/Journal of Software, 2025, 36(9): 4187–4206 (in Chinese). http://www.jos.org.cn/1000-9825/7264.htm

                 Knowledge Distillation for Scene Text Detection via Mask Information Entropy Transfer
                                           1
                             1
                                                     1,2
                 CHEN Jian-Wei , SHEN Ying-Long , YANG Fan , LAI Yong-Xuan 3
                 1
                 (Department of Automation, Xiamen University, Xiamen 361005, China)
                 2
                 (Shenzhen Research Institute of Xiamen University, Shenzhen 518057, China)
                 3
                 (Department of Software Engineering, Xiamen University, Xiamen 361005, China)
                 Abstract:  Mainstream  methods  for  scene  text  detection  often  use  complex  networks  with  plenty  of  layers  to  improve  detection  accuracy,
                 which  requires  high  computational  costs  and  large  storage  space,  thus  making  them  difficult  to  deploy  on  embedded  devices  with  limited
                 computing  resources.  Knowledge  distillation  assists  in  training  lightweight  student  networks  by  introducing  soft  target  information  related
                 to  teacher  networks,  thus  achieving  model  compression.  However,  existing  knowledge  distillation  methods  are  mostly  designed  for  image
                 classification and extract the soft probability distributions from teacher networks as knowledge. The amount of information carried by such
                 methods  is  highly  correlated  with  the  number  of  categories,  resulting  in  insufficient  information  when  directly  applied  to  the  binary
                 classification  task  in  text  detection.  To  address  the  problem  of  scene  text  detection,  this  study  introduces  a  novel  concept  of  information


                 *    基金项目: 国家自然科学基金面上项目   (62173282); 厦门市自然科学基金面上项目   (3502Z20227180)
                  收稿时间: 2023-03-28; 修改时间: 2024-01-11, 2024-07-18; 采用时间: 2024-08-02; jos 在线出版时间: 2025-01-15
                  CNKI 网络首发时间: 2025-01-15
   271   272   273   274   275   276   277   278   279   280   281