Page 292 - 《软件学报》2025年第9期
P. 292

陈建炜 等: 基于掩码信息熵迁移的场景文本检测知识蒸馏                                                     4203


                 的出口标志以及图       8(f) 中门牌上的英文. 同时可以发现基线模型存在错检的情况, 例如图                  8(b), baseline 模型错把
                 背景的一部分当作文本, 而        MaskET  判别能力更强, 不会将背景检测为文本. 如图            8(c) 所示, MaskET  训练的学生
                 网络检测的文本框均能更加完整包裹住文本的边缘, 可见学生网络通过学习蕴含教师网络关于文本边缘注意力的
                 信息熵知识, 有效提升边缘检测能力.

                 5   有效性威胁

                 5.1   内部有效性威胁
                    内部有效性威胁主要来源于对文本检测模型、MaskET                 和其对比方法的实现过程, 以及在实验分析中计算相
                 关指标的过程. 为了减少这方面的威胁, 我们在复现本文检测模型时, 使用了相关论文的开源代码来实现, 并保证
                 模型参数严格遵循原论文中的最佳参数; 在实现               MaskET  方法时, 我们尽可能地使用       Python  中现有成熟框架的封
                 装代码来实现; 在实现对比蒸馏方法时, 我们参考了相对应论文的开源代码, 并将其迁移至我们的项目环境中. 此
                 外, 在实验分析时, 尽管相关指标的计算并不复杂, 我们仍参考了相关工作的开源项目, 将其计算评价指标的代码
                 迁移至我们的环境中, 以实现评价指标的计算.

                 5.2   外部有效性威胁
                    外部有效性威胁主要来源于实验数据集以及预训练模型的参数文件. 为了评价所提方法的效果, 我们在                                  6  个
                 标准自然场景文本检测数据集上进行了验证, 尽管这些数据集是业界广泛使用的                           benchmark  数据集, 但可能存在
                 对特定领域或场景的偏见, 我们仍然需要考虑模型在其他数据集上的泛化性能. 特别是实际应用时, 如果真实的数
                 据包含不同风格的文本类型、场景或质量, 模型可能无法良好地适应, 从而影响其在实际应用中的效果. 此外, 在
                 训练模型前, 我们加载了业界广泛采用的预训练权重文件, 此权重文件基于                        ImageNet 数据集进行分类训练而得
                 到. 尽管这一做法对于模型的训练效果有所提升, 在实际应用时我们仍需考虑领域适应的问题, 预训练权重文件的
                 数据集是否适配实际应用场景中的文本检测任务是需要考虑的因素.

                 5.3   结构有效性威胁
                    结构有效性威胁主要来源于实验中的超参数选择及实验设计. 为了减少这方面的威胁, 我们在实现文本检测
                 模型、对比蒸馏方法时时遵循了原始论文中的最佳参数推荐; 对于温度超参数及损失权重超参数, 我们进行了敏
                 感性分析实验, 并选择实验效果最佳的超参数作为我们的实验设置. 在实验设计方面, 我们从统计上分析了所提方
                 法与对比方法的显著性差异, 设计了消融实验以验证我们方法中各个模块的有效性, 并进行了可视化实验以便从
                 直觉上理解我们的方法. 但由于模型的单次训练时间较长, 我们仅在单个数据集上进行了上述实验, 因此超参数的
                 选择及其他实验结果可能存在偏向性, 在未来的工作中, 我们将继续研究这些超参数及各个模块对方法性能的影响.

                 6   结 论

                    针对图像分类的软目标知识存在泛化信息不足的问题, 本文定义了一种全新的更具泛化性的信息熵知识. 在
                 此基础上, 本文进一步提出了基于掩码信息熵迁移的知识蒸馏方法                      (MaskET), 通过掩码的操作, 仅提取教师网络
                 关于文本框区域的信息熵知识, 用于指导学生网络训练. 在                  6  个公共标准数据集的实验表明, MaskET        能有效提高
                 基线模型的    F1, 并且与其他蒸馏方法对比, 取得最好的效果. 未来我们将进一步探索把信息熵作为知识融入自蒸
                 馏的框架, 以省去知识蒸馏预先训练教师网络带来的额外训练成本.

                 References:
                  [1]   Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proc. of the 2015 IEEE Conf. on Computer
                     Vision and Pattern Recognition. Boston: IEEE, 2015. 3431–3440. [doi: 10.1109/CVPR.2015.7298965]
                  [2]   Yuan YH, Chen XL, Wang JD. Object-contextual representations for semantic segmentation. In: Proc. of the 61st European Conf. on
                     Computer Vision. Glasgow: Springer, 2020. 173–190. [doi: 10.1007/978-3-030-58539-6_11]
   287   288   289   290   291   292   293   294   295   296   297