Page 211 - 《水产学报》2025年第7期
P. 211

曹正良,等                                                                 水产学报, 2025, 49(7): 079616

              颜色相对更暗        (图  4-b)。罗氏沼虾在缸底移动时                Normalization (BN) 进行试验对比并判断模型是
              包含多个频率带,特别是在低频段                     (约  1 000    否符合需求。③通过进一步考察模型声音信号
              Hz 以下) 有明显的垂直条纹,频率带分布较多                          分类的指标      (即分类精确率、F1         值、召回率等)
              且不均匀,高能量区域分布更加分散,即多个                             确定最优模型。④录入一段训练前原始的音频
              频率在不同时间点上出现了显著能量峰值,高                             文件,并通过音频文件转换为                Mel 频谱图的形
              频段也出现了比钳子抓取声事件更多的特征                              式检验识别模型的运行情况,包括识别时间、
              (图  4-c)。对采集的单只罗氏沼虾的摄食、移动、                       占用内存及准确率。
              两只打斗的行为的发声信号进行分类研究并划
                                                                   对比试验  为了匹配当前数据特征并选
              分为类别      0、1、2。在数据的收集过程中,通
                                                               择合适的模型,本实验中分别采用了                      CNN、
              过对   600  个收集到的      3  种  Mel 频谱图进行水平
                                                               ResNet18  和  VGG16  三种网络结构,在构建的
              翻转、添加高斯噪声及高斯模糊等方法,一共
                                                               数据集上统一进行了           150  次迭代训练,并通过
              得到   1 200  个样本,将这       3  种数据集打上标签             比较模型迭代后的准确率、损失值、内存占用
              并随机打乱,按照           6∶3∶1   的比例随机划分训
                                                               及运行时间,选择适用模型。
              练集、验证集和测试集。
                                                                   由表   1  的准确率、损失值、内存占用和运

              3    讨论                                          行时间的结果可以看出, ResNet18 以 97.67%
                                                               的最高准确率和         0.073 的最低损失值,展现出

              3.1    模型  CNN、ResNet18    与  VGG16  的选择         最佳的学习效果。同时,其最大内存占用仅为

                   CNN、ResNet18   和  VGG16  是三种典型的             857.89 Mb,远低于 CNN 和 VGG16,大幅减少
              卷积神经网络结构。CNN             是基础的卷积神经网               计算资源消耗,使其在计算资源受限的情况下
              络,通过卷积层、池化层和全连接层提取图像                             仍能高效运行,适合在较低算力设备上部署。
                                                               此外,ResNet18 的运行时间最短            (369.46 s),计
              特征,其结构简单但只能处理局部特征、难以
              捕捉复杂行为模式,因其计算量小,比较适用                             算效率最高。由于罗氏沼虾的行为特征具有一
              于小型数据集。VGG16          [24]  通过堆叠多个     3×3  卷    定的动态性,其对环境的反应会随着时间、温
                                                               度的变化而改变,这要求模型能够准确、高效
              积层和    2×2  池化层,所构建的         16  层深度网络比
              基础 CNN 具有更强的特征提取能力,因参数量                          地捕捉发声信息以确定行为模式。VGG16                   虽计
              较大,适用于高精度而计算资源较充足的情况。                            算成本较大,但是在预测准确率与学习潜力上
                                                               优于  CNN,ResNet18 在保证预测精度的同时兼
              ResNet18  则引入了残差连接,通过跳跃连接将
                                                               顾计算成本和效率。因此,可选择                   VGG16   和
              输入直接传递到后面的层,可解决深层网络中
              的梯度消失问题,适用于计算资源受限设备,                             Resnet18  进行优化改进。
              在保持较高识别精度的同时更利于网络训练。                                 BN [25]  是一种用于深度神经网络的归一化

                                                                   [26]
                                                               模块 ,其计算公式:
                   试验环境  试验环境为 Intel(R) Core(TM)
              i7-10750H CPU @ 2.60 GHz 处理器, NVIDIA                       1  ∑  N  ∑ H  ∑ W
                                                                   µ c =       i=1  j=1  k=1  x icjk    (2)
              GeForce RTX 2 060  显卡,6 GB 内存,软件选择                       NHW
              Anaconda python 3. 11.5,开源学习框架 pytorch,              σ =   1  ∑  N  ∑ H  ∑ W (  x icjk −µ c  ) 2  (3)
                                                                    2
              版本为     2.4.1。优化器为      SGD,输入图像尺寸                       NHW     i=1  j=1  k=1
              224×224×3,批处理规模为        32,学习率为 0.000 01,                  表 1    三种模型实验结果对比
              动量   0.09,权重衰减      0.001。
                                                                      Tab. 1    Comparison of experimental

                   试验方案  设计以准确率及精确率作为                                       results of three models
              评价标准,为验证本研究中所提出的方法对比                               模型    准确率/%   损失值     内存占用/Mb     运行时间/s
              罗氏沼虾行为分类的结果,设计了以下对比试                              model  accuracy  loss value max memory usage  run time
              验:①比较在        CNN、ResNet18    与  VGG16  在训       CNN      85.83   0. 12    2 214.86   549. 50
              练图集的识别准确率。②在已有网络模型的基                             VGG16    92.50   0. 08    4 074.54   557. 20
              础 上 对 其 优 化 , 在 特 征 提 取 模 块 加 入         Batch    ResNet18  97.67  0. 07     857. 89   369. 46

              中国水产学会主办  sponsored by China Society of Fisheries                          https://www.china-fishery.cn
                                                            5
   206   207   208   209   210   211   212   213   214   215   216