Page 213 - 《水产学报》2025年第7期
P. 213
曹正良,等 水产学报, 2025, 49(7): 079616
BN-ResNet18 损失值 loss value of BN-ResNet18 绘制出的准确率及损失值上可以看出,在迭代
ResNet18 损失值 loss value of ResNet18
VGG16 损失值 loss value of VGG16 中加入了 BN 之后,在 10 次之后 BN-ResNet18
BN-VGG16 损失值 loss value of BN-VGG16
VGG16 准确率 accuracy of VGG16 的识别准确率超过了 90% 并且保持较高水平,
BN-ResNet18 准确率 accuracy of BN-ResNet18
ResNet18 准确率 accuracy of ResNet18 而且 在 次迭代中分类准确率
120 BN-VGG16 准确率 accuracy of BN-VGG16 BN-ResNet18 150
达到了 99% (图 BN-ResNet18 进行最终模型进行
8),并没有出现过拟合现
7,图
准确率和损失值/% accuracy and loss 80 90.50 识别检验。 python 通过将音频
100
99.00
象,所以选取
97.67
94.17
60
在检验识别过程,运用
40
的行为类别。在预处理阶段,音频文件首先通
20 信号转换为 Mel 频谱图像来识别音频片段对应
0 过 torchaudio.load 函数加载为波形数据,并通
0 20 40 60 80 100 120 140 160 过计算多个通道的平均值将其转换为单声道,
迭代/次
epoch 以简化特征处理。在此基础上将音频分割为 3
图 7 模型收敛曲线 s 的连续片段,每个片段的步幅长度根据音频
采样率与 Mel 滤波器数量进行计算,以确保每
Fig. 7 Model convergence curve
个片段的有效频谱覆盖范围。公式:
合运用 SGD 优化器,可以提高模型的训练效率、
采样率× 音频设定分段时间
稳定性和泛化能力,加速模型的收敛速率,减 步幅长度 = (5)
频谱图的尺寸
少过拟合风险。如图 8 两种模型的试验结果表
步幅长度
明,BN-VGG16 模型迭代 80 次之后在数据集上 2 个相邻时间帧的时间间隔 = (6)
采样率
出现了过拟合,主要原因在于其结构由连续的
对于每个分段片段,随机选取起始点并提
3×3 卷积层组成且参数较多引起。然而 BN-Res-
取对应的音频片段,生成其 Mel 频谱表示。最
Net18 在 300 个训练周期内保持稳定收敛,验证
终,得到的 Mel 频谱图被调整为 224×224 的张
集损失函数值持续下降,未有拟合迹象,印证 量。输入到训练好的 BN-ResNet18 卷积神经网
了其在深层网络训练中的结构优势。 络模型中,通过在这些图像片段上运行分类模
在分类识别任务上优先考虑使用 BN-Res- 型,代码计算并输出模型的识别准确率、执行时间
Net18,其在图 9 类别 0、1、2 中,即罗氏沼虾 以及内存消耗,考察不同采样率 (表 2)。
对应行为识别精确率整体情况都较高,并且在 在对 BN-ResNet18 模型进行音频识别的研
1.2 1.2
BN-Resnet18 训练集 BN-VGG16 训练集
BN-Resnet18 training set BN-VGG16 training set
1.0 1.0 BN-VGG16 验证集
BN-Resnet18 验证集
BN-Resnet18 validation set BN-VGG16 validation set
0.8 0.8
损失值 loss value 0.6 损失值 loss value 0.6
0.4 0.4
0.2 0.2
0 0
0 50 100 150 200 250 300 0 20 40 60 80 100 120 140
迭代/次 迭代/次
epoch epoch
(a) (b)
图 8 BN-ResNet18 损失值曲线 (a) 与 BN-VGG16 损失值曲线 (b)
Fig. 8 Loss value curves of BN-ResNet18 (a) versus BN-VGG16 (b)
中国水产学会主办 sponsored by China Society of Fisheries https://www.china-fishery.cn
7