Page 276 - 《软件学报》2025年第9期
P. 276
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(9):4187−4206 [doi: 10.13328/j.cnki.jos.007264] [CSTR: 32375.14.jos.007264] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于掩码信息熵迁移的场景文本检测知识蒸馏
陈建炜 1 , 沈英龙 1 , 杨 帆 1,2 , 赖永炫 3
1
(厦门大学 自动化系, 福建 厦门 361005)
2
(厦门大学深圳研究院, 广东 深圳 518057)
3
(厦门大学 软件工程系, 福建 厦门 361005)
通信作者: 杨帆, E-mail: yang@xmu.edu.cn
摘 要: 自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度, 需要较大的计算量和存
储空间, 难以部署到计算资源有限的嵌入式设备上. 知识蒸馏可通过引入与教师网络相关的软目标信息, 辅助训练
轻量级的学生网络, 实现模型压缩. 然而, 现有的知识蒸馏方法主要为图像分类任务而设计, 提取教师网络输出的
软化概率分布作为知识, 其携带的信息量与类别数目高度相关, 当应用于文本检测的二分类任务时会存在信息量
不足的问题. 为此, 针对场景文本检测问题, 定义一种新的信息熵知识, 并以此为基础提出基于掩码信息熵迁移的
知识蒸馏方法 (mask entropy transfer, MaskET). MaskET 在传统蒸馏方法的基础上引入信息熵知识, 以增加迁移到
学生网络的信息量; 同时, 为了消除图像中背景信息的干扰, MaskET 通过添加掩码的方法, 仅提取文本区域的信息
熵知识. 在 ICDAR 2013、ICDAR 2015、TD500、TD-TR、Total-Text 和 CASIA-10K 这 6 个公开标准数据集上的实验
表明, MaskET 方法优于基线模型和其他知识蒸馏方法. 例如, MaskET 在 CASIA-10K 数据集上将基于 MobileNetV3
的 DBNet 的 F1 得分从 65.3% 提高到 67.2%.
关键词: 自然场景; 文本检测; 知识蒸馏; 信息熵
中图法分类号: TP18
中文引用格式: 陈建炜, 沈英龙, 杨帆, 赖永炫. 基于掩码信息熵迁移的场景文本检测知识蒸馏. 软件学报, 2025, 36(9): 4187–4206.
http://www.jos.org.cn/1000-9825/7264.htm
英文引用格式: Chen JW, Shen YL, Yang F, Lai YX. Knowledge Distillation for Scene Text Detection via Mask Information Entropy
Transfer. Ruan Jian Xue Bao/Journal of Software, 2025, 36(9): 4187–4206 (in Chinese). http://www.jos.org.cn/1000-9825/7264.htm
Knowledge Distillation for Scene Text Detection via Mask Information Entropy Transfer
1
1
1,2
CHEN Jian-Wei , SHEN Ying-Long , YANG Fan , LAI Yong-Xuan 3
1
(Department of Automation, Xiamen University, Xiamen 361005, China)
2
(Shenzhen Research Institute of Xiamen University, Shenzhen 518057, China)
3
(Department of Software Engineering, Xiamen University, Xiamen 361005, China)
Abstract: Mainstream methods for scene text detection often use complex networks with plenty of layers to improve detection accuracy,
which requires high computational costs and large storage space, thus making them difficult to deploy on embedded devices with limited
computing resources. Knowledge distillation assists in training lightweight student networks by introducing soft target information related
to teacher networks, thus achieving model compression. However, existing knowledge distillation methods are mostly designed for image
classification and extract the soft probability distributions from teacher networks as knowledge. The amount of information carried by such
methods is highly correlated with the number of categories, resulting in insufficient information when directly applied to the binary
classification task in text detection. To address the problem of scene text detection, this study introduces a novel concept of information
* 基金项目: 国家自然科学基金面上项目 (62173282); 厦门市自然科学基金面上项目 (3502Z20227180)
收稿时间: 2023-03-28; 修改时间: 2024-01-11, 2024-07-18; 采用时间: 2024-08-02; jos 在线出版时间: 2025-01-15
CNKI 网络首发时间: 2025-01-15

