Page 285 - 《软件学报》2025年第9期

P. 285

4196 软件学报 2025 年第 36 卷第 9 期

● ICDAR 2013 [42] : 来源于 ICDAR 2013 竞赛挑战 2, 包含 229 张训练集图像和 233 张测试集图像. 该数据集文
本排布特点为水平, 提供字符级和单词级标注, 以矩形标注.
[11]
● ICDAR 2015 : 来源于 ICDAR 2015 竞赛挑战 4, 是以矩形边界框标注的英文文本数据集, 其中训练图片有
1 000 张, 500 张用作测试图片. ICDAR 2015 使用谷歌眼镜随机采集街景图片, 因此数据集特点是具有任意方向的
文本, 像素值低.
● TD500 [43] : 以矩形文本框标注的中英文混合数据集, 其中有 300 张图片用于训练集, 测试数据集 200 张, 包
含水平以及倾斜的自然场景文本. MSRA-TD500 使用数码相机采集来自办公室或者室外街道的图像, 分辨率从
1296×864 到 1920×1280 之间.
● TD-TR: 本文参考相关文献 [12,15] 中的做法, 将 400 张 HUST-TR400 [44] 数据集图像和 TD500 的训练数据集合
并, 因此 TD-TR 数据集的训练集有 700 张, 测试集与 TD500 一致.
● Total-Text [45] : 多边形标注的弯曲文本数据集, 共 1 555 张图片, 其中训练集有 1 255 张, 测试集 300 张. Total-
Text 数据集特点是方向多样性, 包含水平方向和多方向、多种弯曲样式, 如圆形、波浪形等.
● CASIA-10K [46] : 该数据集包含 10 000 张图像, 其中训练集图像有 7 000 张, 其余 3 000 张图像用于测试. 数据
集采集自中文场景, 每条文本行标注其四边形的 8 个坐标值.

4.1.2 评价指标
本文使用精确率 (precision, P)、召回率 (recall, R) 和精确率召回率的调和平均 (F1-score, F1) 来评价文本检测
方法的性能. 根据检测的矩形框 D i 和标签 G j 之间的交并比 IoU (intersection over union) 统计出正确检测的矩形框
集合 T p , 计算公式如下:

( )
area G j ∩ D i
IoU = ( ) (8)
area G j ∪ D i
(
)
(
)
其中, area G j ∩ D i 和 area G j ∪ D i 分别表示 G j 和 D i 的交集和并集区域面积.
进而可求得精确率 P、召回率 R 和 F1 如下:

|T P |
P = (9)
|D|

|T P |
R = (10)
|G|

2× P×R
F1 = (11)
P+R

4.2 实验设置
教师网络和学生网络规模大小的差别体现在主干网络, 其中教师网络使用参数量较大的 ResNet50 [10] 作为主
干网络, 而学生网络采用轻量级网络 MobileNetV3 [47] . 本文选择广泛使用的 DBNet 和 EAST 作为学生网络的检测
头, 分别记为 MV3-DB 和 MV3-EAST 以区别不同架构的学生网络. 由于教师网络已经提前训练好, 此处仅讨论训
练学生网络时的相关设置. 模型训练的优化器为 SGD, 其中初始学习率为 0.007, 优化器动量设置为 0.9, 权重衰减
设置为 0.000 1, 并且使用多项式学习率调整策略. 总共训练 1 200 epoch, 一个 batch size 为 8. 训练图像经过随机翻
转, 旋转 (−10, 10), 最后统一裁剪至 640×640. 如果没有特别说明, 图像的数据增强采用随机旋转和随机剪裁. 为了
保证不超出显存, 训练 EAST 时训练图像统一缩放至 512×512, 训练 DB 时, 缩放至 640×640.
所有实现深度学习框架 PyTorch, 在 Windows 10 平台上使用单张 1080Ti 显卡训练. 实验环境如表 1 所示.

表 1 环境配置

项目配置
处理器 Intel(R) Core(TM) i7-7800X CPU @ 3.50 GHz
内存 DDR4 2133 MHz 96.0 GB
显卡 NVIDIA GTX 1080Ti
操作系统 Windows 10 (19042.1110)

280 281 282 283 284 285 286 287 288 289 290