Page 285 - 《软件学报》2025年第9期
P. 285

4196                                                       软件学报  2025  年第  36  卷第  9  期


                    ● ICDAR 2013 [42] : 来源于  ICDAR 2013  竞赛挑战  2, 包含  229  张训练集图像和  233  张测试集图像. 该数据集文
                 本排布特点为水平, 提供字符级和单词级标注, 以矩形标注.
                                [11]
                    ● ICDAR 2015  : 来源于  ICDAR 2015  竞赛挑战  4, 是以矩形边界框标注的英文文本数据集, 其中训练图片有
                 1 000  张, 500  张用作测试图片. ICDAR 2015  使用谷歌眼镜随机采集街景图片, 因此数据集特点是具有任意方向的
                 文本, 像素值低.
                    ● TD500 [43] : 以矩形文本框标注的中英文混合数据集, 其中有           300  张图片用于训练集, 测试数据集        200  张, 包
                 含水平以及倾斜的自然场景文本. MSRA-TD500            使用数码相机采集来自办公室或者室外街道的图像, 分辨率从
                 1296×864  到  1920×1280  之间.
                    ● TD-TR: 本文参考相关文献      [12,15] 中的做法, 将  400  张  HUST-TR400  [44] 数据集图像和  TD500  的训练数据集合
                 并, 因此  TD-TR  数据集的训练集有     700  张, 测试集与  TD500  一致.
                    ● Total-Text [45] : 多边形标注的弯曲文本数据集, 共   1 555  张图片, 其中训练集有    1 255  张, 测试集  300  张. Total-
                 Text 数据集特点是方向多样性, 包含水平方向和多方向、多种弯曲样式, 如圆形、波浪形等.
                    ● CASIA-10K [46] : 该数据集包含  10 000  张图像, 其中训练集图像有    7 000  张, 其余  3 000  张图像用于测试. 数据
                 集采集自中文场景, 每条文本行标注其四边形的               8  个坐标值.

                 4.1.2    评价指标
                    本文使用精确率      (precision, P)、召回率  (recall, R) 和精确率召回率的调和平均    (F1-score, F1) 来评价文本检测
                 方法的性能. 根据检测的矩形框          D i 和标签  G j 之间的交并比  IoU (intersection over union) 统计出正确检测的矩形框
                 集合  T p , 计算公式如下:

                                                             (     )
                                                          area G j ∩ D i
                                                     IoU =   (     )                                  (8)
                                                          area G j ∪ D i
                         (
                                           )
                                     (
                               )
                 其中,   area G j ∩ D i  和  area G j ∪ D i  分别表示  G j 和  D i 的交集和并集区域面积.
                    进而可求得精确率       P、召回率    R  和  F1  如下:

                                                             |T P |
                                                         P =                                          (9)
                                                             |D|

                                                             |T P |
                                                         R =                                         (10)
                                                             |G|

                                                           2× P×R
                                                       F1 =                                          (11)
                                                             P+R

                 4.2   实验设置
                    教师网络和学生网络规模大小的差别体现在主干网络, 其中教师网络使用参数量较大的                              ResNet50 [10] 作为主
                 干网络, 而学生网络采用轻量级网络           MobileNetV3 [47] . 本文选择广泛使用的  DBNet 和  EAST  作为学生网络的检测
                 头, 分别记为   MV3-DB  和  MV3-EAST  以区别不同架构的学生网络. 由于教师网络已经提前训练好, 此处仅讨论训
                 练学生网络时的相关设置. 模型训练的优化器为               SGD, 其中初始学习率为       0.007, 优化器动量设置为     0.9, 权重衰减
                 设置为   0.000 1, 并且使用多项式学习率调整策略. 总共训练           1 200 epoch, 一个  batch size 为  8. 训练图像经过随机翻
                 转, 旋转  (−10, 10), 最后统一裁剪至  640×640. 如果没有特别说明, 图像的数据增强采用随机旋转和随机剪裁. 为了
                 保证不超出显存, 训练      EAST  时训练图像统一缩放至        512×512, 训练  DB  时, 缩放至  640×640.
                    所有实现深度学习框架         PyTorch, 在  Windows 10  平台上使用单张  1080Ti 显卡训练. 实验环境如表     1  所示.

                                                      表 1 环境配置

                                     项目                                 配置
                                    处理器                   Intel(R) Core(TM) i7-7800X CPU @ 3.50 GHz
                                     内存                          DDR4 2133 MHz 96.0 GB
                                     显卡                           NVIDIA GTX 1080Ti
                                   操作系统                          Windows 10 (19042.1110)
   280   281   282   283   284   285   286   287   288   289   290