Page 22 - 《水产学报》2025年第11期
P. 22
朱国平,等 水产学报, 2025, 49(11): 119102
表 2 鱼类物种识别和种群判别分类器总结表
Tab. 2 Summary of fish species identification and population discriminatory classifiers
噪声 数据 过拟合
分类依据 参数数量 预测能力 应用鱼类
分类器 敏感性 敏感性 风险 可解释性 文献
classifier classification anti-noise data overfitting interpretability parameter predictive fish reference
theory number capacity species
capability sensitivity risk
LDA 投影后类内方差最小, — ↗ — ↗ ↗ ↗ 冰鱼科 Channichthyidae [43]
类间方差最大 鲭科 Scombridae
QDA LDA的变体,允许数 — ↗ — ↗ ↗ ↗ 海鲇科 Ariidae [74]
据的非线性分离 鲭科 Scombridae
KNN 计算不同特征值距离 ↘ ↘ — — — — 鲭科 Scombridae [75]
鲑科 Salmonidae
SVM 找到最大间隔超平面 — — — ↘ ↘ ↗ 鲤科 Cyprinidae [26]
进行分类 鳀科 Engraulidae
鲱科 Clupeidae
DT 根据损失函数最小化 — ↗ ↘ ↗ — — 鲑科 Salmonidae [44]
建立决策树
RF 熵原则构建多棵决策 — ↗ — ↗ — ↗ 鲷科 Sparidae [26]
树,投票机制 冰鱼科 Channichthyidae
鳕科 Gadidae
Bayes 基于训练集D来估计类 — ↗ — ↗ ↗ ↘ 鲑科 Salmonidae [76]
先验概率
LR 使用某概率模型计算 ↘ — — ↗ ↗ — 鲑科 Salmonidae [61]
概率
NN 受生物神经网络启发 — ↘ ↘ ↘ ↘ ↗ 鳕科 Gadidae [77]
的模型,最后通过多 鲑科 Salmonidae
层神经网络计算概率 鲤科 Cyprinidae
分类
注:↗.较高,—.中等,↘.较低。LDA.线性判别分析,QDA.二次判别分析,KNN. K最近邻分类,SVM.支持向量机,DT.决策树,RF.随机森
林,Bayes.贝叶斯分类,LR.逻辑回归,NN.神经网络。
Notes: ↗. high, —. medium, ↘. low. LDA. Linear Discriminant Analysis, QDA. Quadratic Discriminant Analysis, KNN. K-Nearest Neighbors, SVM.
Support Vector Machines, DT. Decision Tree, RF. Random Forest, LR. Logistic Regression, NN. Neural Network.
所示 。其中最常见的为准确率指标,但在正 将每个类别平等地看待 。
[80]
[82]
负样本不均衡的情况下,这个指标有着较大的缺 当某些分类依据是概率值分类的模型,会
[81]
陷 。例如,正例数量明显大于负例数量,若 通过阈值 δ确定分类的类别。此时,阈值会影响
分类模型将所有实例均预测为正类,准确率仍 模型评价的效果,所以提出了一些无阈值化的
较高,但无法说明模型性能优越。一般情况下, 评 价 指 标 。 接 收 者 操 作 特 征 曲 线 下 的 面 积
准确率越接近于 1,模型性能越优越。所以, (AUROC) 时不需要阈值的评价方法,其通过计
针对不同的任务,有学者会选择精确率和召回 算真正类率 TPR 和负正类率 TNR 描绘 ROC 曲
率,如要求任务不能出现错误的识别,则要求
线,计算曲线下的面积。面积越接近 1,模型
模型需要较高的召回率。实际上,精确率和召
的分类性能越优。
回率是矛盾的两个指标;一般来说,精确率高
时,召回率值往往偏低;而精确率值低时,召 3 展望
回率值往往偏高。当分类置信度高时,精确率
偏高;分类置信度低时,召回率偏高。所以需 本文回顾了机器学习在鱼类物种识别与种
要引入 F-score 衡量模型的整体指标,其最常用 群判别中的应用。大数据的背景下,鱼类研究
的是 F 1 分数。而在多分类问题中,同样延伸了 中机器学习占据的比例逐年增长,有较大的潜
两 类 评 价 指 标 , 宏 观 F 1 (Macro F 1 )和 微 观 力成为新的研究热点。其中,基于图片和影像
F 1 (Micro F 1 )。其中,Micro F 1 考虑了模型中可 数据的鱼类物种识别通常采取深度学习的策略,
能出现了数据不均衡的问题,宏观 F 1 分数则是 且为了满足神经网络需要的大量数据,大量研
https://www.china-fishery.cn 中国水产学会主办 sponsored by China Society of Fisheries
8

