Page 193 - 《武汉大学学报(信息科学版)》2025年第6期
P. 193
第 50 卷第 6 期 陈学业等:结合 SBAS-InSAR 技术与深度神经网络的滑坡早期识别 1215
研 究 采 用 3 层 LSTM 结 构(每 层 100 个 单 TNR)、假正率(false positive ratio,FPR)、受试者
元),门控激活函数为 Sigmoid,状态激活函数为 工 作 特 征 曲 线(receiver operator characteristic,
tanh。模型使用 Adam 优化器训练,在 LSTM 层 ROC)等指标综合评估所构建滑坡易发性模型的
间插入 Dropout 层以增强泛化能力。 性能。
4)数据平衡。数据平衡是指在机器学习模 (1)准确率 A 表示模型正确分类的样本占总
型训练中,针对数据集中的不平衡问题采取的一 样本数的比例,用于衡量模型整体的正确分类能
些方法 [30] 。在实际应用中,当数据集的部分特定 力,其计算公式为:
类别(如滑坡与非滑坡样本)存在显著数量差异 N TP + N TN
A = ×100% (3)
时,会诱发模型训练偏差,进而导致预测结果过 N TP + N TN + N FP + N FN
度偏向高频类别 [31] 。数据平衡目的就是通过调 式 中 ,TP(true positive)是 真 正 例 ,N TP 代 表 模 型
整样本分布,使得模型能够更好地学习数据集中 正确预测为正类的样本数;TN(true negative)是
所有类别之间的特征和关系,提高模型的泛化能 真负例,N TN 代表模型正确预测为负类的样本数;
力。常用的数据平衡方法有以下几种:(1)欠采 FP(false positive)是假正例,N FP 代表模型错误预
样:从数量较多的那些类别中随机地选择少量样 测 为 正 类 的 样 本 数 ;FN(false negative)是 假 负
本,使得不同类别的样本数量趋于平衡。(2)过采 例,N FN 代表模型错误预测为负类的样本数。
(2)精确率 P 衡量的是所有被预测为正类的
样:通过一些方法增加数量较少的那些类别的样
样本中,实际为正类的比例,其计算公式为:
本数。(3)生成合成样本:通过基于少量样本生成
新 样 本 的 方 法 ,使 不 同 类 别 的 样 本 数 量 达 到 平 P = N TP ×100% (4)
N TP + N FP
衡。(4)类别加权:在训练模型时提高数量较少的
(3)召回率 R 表示所有实际为正类的样本中
那 些 类 别 的 权 重 ,降 低 数 量 较 多 的 那 些 类 别 的
被正确预测为正类的比例,用于衡量模型捕获正
权重。
类样本的能力,其计算公式为:
对此,本文选用合成少数类过采样(synthetic
N TP
minority over-sampling technique,SMOTE)、汤姆 R = ×100% (5)
N TP + N FN
克 链 接 欠 采 样(Tomek Link)和 SMOTETomek
(4)F1 分 数 是 精 确 率 和 召 回 率 的 调 和 平 均
综合采样 3 种数据平衡方法,与 CNN、MLP、
值,综合衡量模型在精确度和召回率之间的平衡
LSTM 3 种深度神经网络进行排列组合,构建了
表现,其计算公式为:
9 种滑坡易发性预测模型。通过系统评估各模型 PR
F1 = 2 ×100% (6)
预测精度,确定最优模型方案。 P + R
5)精度评价指标。为确保所得预测结果的 (5)Kappa 系数考虑了随机猜测(偶然性)可
可靠性,研究采用准确率、精确度、召回率、F1 分 能带来的正确率,用于衡量模型预测结果与真实
数 、Kappa 系 数 、真 负 率(true negative ratio, 结果之间的一致性的,其计算公式为:
) ) ) )
A - P e ( N TP + N FP ( N TP + N FN +( N TN + N FN ( N TN + N FP
C Kappa = ,P e = (7)
1 + P e ) 2
( N TP + N TN + N FP + N FN
(6)TNR 也称为特异度,表示所有实际为负 能力。
类的样本中被正确预测为负类的比例,用于衡量 2.2 斜坡单元划分方法
模型识别负例的能力,其计算公式为: 1)r.slopeunits 工具。其划分斜坡单元的主要
原理为 [32] :定义少量且面积比较大的区域,并逐
N TN
P TNR = ×100% (8)
步减少单个区域的面积增加个数,直到获得比较
N TN + N FP
(7)FPR 表示所有实际为负类的样本中被错 满意的结果,将研究区分为大的子流域,并依据
误预测为正类的比例,其计算公式为: 水文和地形条件进一步细分为左右两侧,由此产
生的两侧被命名为半盆地,继续迭代一定次数,
N FP
P FPR = ×100% (9)
细分半盆地得到最终斜坡单元。
N TN + N FP
(8)ROC 是一种常用的地质灾害易发性评价 2)水文分析法。其提取斜坡单元的主要原
精度评价方法,其曲线下面积是对模型性能的一 理为 [33] :首先利用无洼地正负地形分别提取山脊
个数值衡量指标,反映了模型区分正负类样本的 线和山谷线(分别对应分水线和汇水线),把生成