Page 193 - 《武汉大学学报(信息科学版)》2025年第6期
P. 193

第 50 卷第 6 期         陈学业等:结合 SBAS-InSAR 技术与深度神经网络的滑坡早期识别                              1215


                    研 究 采 用 3 层 LSTM 结 构(每 层 100 个 单            TNR)、假正率(false positive ratio,FPR)、受试者
                元),门控激活函数为 Sigmoid,状态激活函数为                      工 作 特 征 曲 线(receiver  operator  characteristic,
                tanh。模型使用 Adam 优化器训练,在 LSTM 层                   ROC)等指标综合评估所构建滑坡易发性模型的
                间插入 Dropout 层以增强泛化能力。                           性能。
                    4)数据平衡。数据平衡是指在机器学习模                             (1)准确率 A 表示模型正确分类的样本占总
                型训练中,针对数据集中的不平衡问题采取的一                           样本数的比例,用于衡量模型整体的正确分类能
                些方法   [30] 。在实际应用中,当数据集的部分特定                    力,其计算公式为:
                类别(如滑坡与非滑坡样本)存在显著数量差异                                           N TP + N TN
                                                                      A =                       ×100% (3)
                时,会诱发模型训练偏差,进而导致预测结果过                                     N TP + N TN + N FP + N FN
                度偏向高频类别        [31] 。数据平衡目的就是通过调                式 中 ,TP(true positive)是 真 正 例 ,N TP 代 表 模 型
                整样本分布,使得模型能够更好地学习数据集中                           正确预测为正类的样本数;TN(true negative)是
                所有类别之间的特征和关系,提高模型的泛化能                           真负例,N TN 代表模型正确预测为负类的样本数;
                力。常用的数据平衡方法有以下几种:(1)欠采                          FP(false positive)是假正例,N FP 代表模型错误预
                样:从数量较多的那些类别中随机地选择少量样                           测 为 正 类 的 样 本 数 ;FN(false negative)是 假 负
                本,使得不同类别的样本数量趋于平衡。(2)过采                         例,N FN 代表模型错误预测为负类的样本数。
                                                                    (2)精确率 P 衡量的是所有被预测为正类的
                样:通过一些方法增加数量较少的那些类别的样
                                                                样本中,实际为正类的比例,其计算公式为:
                本数。(3)生成合成样本:通过基于少量样本生成
                新 样 本 的 方 法 ,使 不 同 类 别 的 样 本 数 量 达 到 平                      P =    N TP   ×100%         (4)
                                                                                N TP + N FP
                衡。(4)类别加权:在训练模型时提高数量较少的
                                                                    (3)召回率 R 表示所有实际为正类的样本中
                那 些 类 别 的 权 重 ,降 低 数 量 较 多 的 那 些 类 别 的
                                                                被正确预测为正类的比例,用于衡量模型捕获正
                权重。
                                                                类样本的能力,其计算公式为:
                    对此,本文选用合成少数类过采样(synthetic
                                                                                   N TP
                minority over-sampling technique,SMOTE)、汤姆                  R =           ×100%         (5)
                                                                                N TP + N FN
                克 链 接 欠 采 样(Tomek Link)和 SMOTETomek
                                                                    (4)F1 分 数 是 精 确 率 和 召 回 率 的 调 和 平 均
                综合采样 3 种数据平衡方法,与 CNN、MLP、
                                                                值,综合衡量模型在精确度和召回率之间的平衡
                LSTM 3 种深度神经网络进行排列组合,构建了
                                                                表现,其计算公式为:
                9 种滑坡易发性预测模型。通过系统评估各模型                                               PR
                                                                             F1 = 2      ×100%          (6)
                预测精度,确定最优模型方案。                                                     P + R
                    5)精度评价指标。为确保所得预测结果的                             (5)Kappa 系数考虑了随机猜测(偶然性)可
                可靠性,研究采用准确率、精确度、召回率、F1 分                        能带来的正确率,用于衡量模型预测结果与真实
                数 、Kappa 系 数 、真 负 率(true  negative  ratio,      结果之间的一致性的,其计算公式为:
                                                          )           )             )          )
                                   A - P e      ( N TP + N FP ( N TP + N FN +( N TN + N FN ( N TN + N FP
                            C Kappa =     ,P e =                                                        (7)
                                    1 + P e                                       )  2
                                                            ( N TP + N TN + N FP + N FN
                   (6)TNR 也称为特异度,表示所有实际为负                       能力。
                类的样本中被正确预测为负类的比例,用于衡量                           2.2 斜坡单元划分方法
                模型识别负例的能力,其计算公式为:                                   1)r.slopeunits 工具。其划分斜坡单元的主要
                                                                原理为   [32] :定义少量且面积比较大的区域,并逐
                                    N TN
                          P TNR =          ×100%        (8)
                                                                步减少单个区域的面积增加个数,直到获得比较
                                 N TN + N FP
                   (7)FPR 表示所有实际为负类的样本中被错                       满意的结果,将研究区分为大的子流域,并依据
                误预测为正类的比例,其计算公式为:                               水文和地形条件进一步细分为左右两侧,由此产
                                                                生的两侧被命名为半盆地,继续迭代一定次数,
                                    N FP
                          P FPR =         ×100%         (9)
                                                                细分半盆地得到最终斜坡单元。
                                 N TN + N FP
                   (8)ROC 是一种常用的地质灾害易发性评价                           2)水文分析法。其提取斜坡单元的主要原
                精度评价方法,其曲线下面积是对模型性能的一                           理为  [33] :首先利用无洼地正负地形分别提取山脊
                个数值衡量指标,反映了模型区分正负类样本的                           线和山谷线(分别对应分水线和汇水线),把生成
   188   189   190   191   192   193   194   195   196   197   198