Page 213 - 《水产学报》2025年第7期
P. 213

曹正良,等                                                                 水产学报, 2025, 49(7): 079616


                          BN-ResNet18 损失值 loss value of BN-ResNet18  绘制出的准确率及损失值上可以看出,在迭代
                          ResNet18 损失值 loss value of ResNet18
                          VGG16 损失值 loss value of  VGG16       中加入了     BN  之后,在     10  次之后   BN-ResNet18
                          BN-VGG16 损失值 loss value of  BN-VGG16
                          VGG16 准确率 accuracy of  VGG16         的识别准确率超过了           90%  并且保持较高水平,
                          BN-ResNet18 准确率 accuracy of BN-ResNet18
                          ResNet18 准确率 accuracy of ResNet18    而且               在     次迭代中分类准确率
                    120   BN-VGG16 准确率 accuracy of  BN-VGG16        BN-ResNet18    150
                                                               达到了    99% (图  BN-ResNet18  进行最终模型进行
                                                                                   8),并没有出现过拟合现
                                                                             7,图
                 准确率和损失值/%  accuracy and loss  80   90.50      识别检验。                     python  通过将音频
                    100
                                                     99.00
                                                               象,所以选取
                                                     97.67
                                                    94.17
                     60
                                                                   在检验识别过程,运用
                     40
                                                               的行为类别。在预处理阶段,音频文件首先通
                     20                                        信号转换为 Mel 频谱图像来识别音频片段对应
                     0                                         过 torchaudio.load 函数加载为波形数据,并通
                       0  20  40  60  80 100 120 140 160       过计算多个通道的平均值将其转换为单声道,
                                   迭代/次
                                    epoch                      以简化特征处理。在此基础上将音频分割为 3
                            图 7    模型收敛曲线                      s 的连续片段,每个片段的步幅长度根据音频
                                                               采样率与 Mel 滤波器数量进行计算,以确保每
                        Fig. 7 Model convergence curve
                                                               个片段的有效频谱覆盖范围。公式:
              合运用    SGD  优化器,可以提高模型的训练效率、
                                                                              采样率× 音频设定分段时间
              稳定性和泛化能力,加速模型的收敛速率,减                                 步幅长度 =                               (5)
                                                                                    频谱图的尺寸
              少过拟合风险。如图            8  两种模型的试验结果表
                                                                                             步幅长度
              明,BN-VGG16     模型迭代      80  次之后在数据集上                2 个相邻时间帧的时间间隔 =                      (6)
                                                                                              采样率
              出现了过拟合,主要原因在于其结构由连续的
                                                                   对于每个分段片段,随机选取起始点并提
              3×3  卷积层组成且参数较多引起。然而                 BN-Res-
                                                               取对应的音频片段,生成其 Mel 频谱表示。最
              Net18  在  300  个训练周期内保持稳定收敛,验证
                                                               终,得到的      Mel 频谱图被调整为 224×224 的张
              集损失函数值持续下降,未有拟合迹象,印证                             量。输入到训练好的           BN-ResNet18 卷积神经网
              了其在深层网络训练中的结构优势。                                 络模型中,通过在这些图像片段上运行分类模
                   在分类识别任务上优先考虑使用                  BN-Res-     型,代码计算并输出模型的识别准确率、执行时间
              Net18,其在图      9  类别  0、1、2  中,即罗氏沼虾             以及内存消耗,考察不同采样率                (表  2)。
              对应行为识别精确率整体情况都较高,并且在                                 在对   BN-ResNet18  模型进行音频识别的研


                        1.2                                         1.2
                                          BN-Resnet18 训练集                            BN-VGG16 训练集
                                          BN-Resnet18 training set                   BN-VGG16 training set
                        1.0                                         1.0              BN-VGG16 验证集
                                          BN-Resnet18 验证集
                                          BN-Resnet18 validation set                 BN-VGG16 validation set
                        0.8                                         0.8
                    损失值  loss value  0.6                       损失值  loss value  0.6

                        0.4                                         0.4

                        0.2                                         0.2

                          0                                          0
                           0   50   100  150  200  250  300            0  20  40  60  80 100 120 140
                                        迭代/次                                        迭代/次
                                         epoch                                      epoch
                                          (a)                                         (b)
                                   图 8    BN-ResNet18  损失值曲线 (a) 与  BN-VGG16  损失值曲线  (b)
                                  Fig. 8 Loss value curves of BN-ResNet18 (a) versus BN-VGG16 (b)

              中国水产学会主办  sponsored by China Society of Fisheries                          https://www.china-fishery.cn
                                                            7
   208   209   210   211   212   213   214   215   216   217   218