Page 88 - 《武汉大学学报(信息科学版)》2025年第9期
P. 88

1816                            武 汉 大 学 学 报  (信 息 科 学 版)                        2025 年 9 月

                层 将 不 同 的 植 被 类 型 分 别 构 建 高 斯 混 合 模 型            留并继承原始植被分类产品类别标签。但现有
                (Gaussian  mixture  model,GMM),通 过 求 解           植被分类产品不能保证每个图斑内都正确分类,
                GMM 的过程去除错分斑块以及步骤 1)带来的错                         因此当前得到的植被分类伪样本集 S pseudo 中存在
                误标签。                                             一定数量的错误,需要进一步优化迁移。局部聚
                     3)采用长时序植被生长期 Landsat 数据进行                   类 分 析 的 总 时 间 复 杂 度 为 O ( K j Nd )⋅ T,其 中 d
                变化检测分析,确定植被增益、损失、不变区域,                           为特征维度,T 为迭代次数。优化方法如图 3 所
                结 合 不 变 区 域 迁 移 样 本 ,构 建 多 时 相 训 练 样             示。在图斑内将占比最多的簇保留并继承植被
                本集。                                              分类标签,得到伪样本。
                     4)通过输入的多时相训练样本集及多源遥
                感数据进行特征筛选,并采用随机森林方法(ran⁃
                dom forest,RF)分层分类,根据土地利用数据进
                行掩膜,从而获得多时相的自然植被分类制图。
                2.2 局部到全局分层样本迁移与优化
                     大标签分类结果中存在较大的噪声,因此首
                先在局部对样本进行迁移优化。以《1∶1 000 000
                中国植被图集》数据集中植被群系图斑的多边形
                信息作为几何约束,为有效约束斑块内的错误植
                                                                               图 3 局部聚类优化
                被分类信息,本文处理研究区与大标签样本数据
                                                                             Fig. 3 Local Optimization
                集相近时相的 Landsat 植被生长期遥感影像,将
                影 像 的 光 谱 特 征 、植 被 指 数 、水 体 指 数 、纹 理 特               为了将噪声从伪样本集 S pseudo 中剔除,获得优
                征 、气 象 数 据 、DEM 及 其 衍 生 数 据 作 为 特 征 输            化 后 的 训 练 样 本 集 S( S ∈ S pseudo ),本 文 采 用 一 种
                入,构建相应图斑的特征集合,作为图斑聚类特                            基于高斯混合模型的植被分类特征优选的全局
                征的输入。                                            分层样本优化方法。从全局多源特征出发,结合
                     将 K-means 方法作为最基础的聚类方法,对                    植被在不同地域分异中的尺度效应,采用 RF 方
                第 j 个植被类型图斑的逐斑块特征数据集实施聚                          法对特征集合 Y v i    进行优选,将优选特征集合作
                类分析。以第 i 个斑块 v i 为例,其由 N 个像元组                    为关键特征输入模型,完成对植被分层分类类别
                                          。假设第 j 个植被类            的全局优化。采用统计方法对伪样本集中的错
                成,对应的属性特征集为 Y v i
                型图斑对应的类别标签为 X j,为了从中分离出与                         误样本进行剔除,分两层对 S pseudo 构建高斯混合模
                X j 正确关联的子集,K-means 方法通过最小化平                     型;将高斯混合模型样本结果与原始标签进行对
                方误差((sum of squared errors, SSE)完成对簇的            比,保留正确样本,完成全局样本优化,获得优化
                聚类划分,计算式为:                                       后的训练样本集。
                                  K j                                对 S pseudo 按照森林、灌丛、草地以及植被型两
                                                2
                           e SSE =  ∑ ∑   y n - μ k       (1)
                                       k        2                层分别对应植被类别标签 X i 进行划分,在不同的
                                 k = 1 y n ∈ C j
                                                                 分类体系下对伪样本集进行逐类别的伪样本集
                式中, e SSE 为平方误差; K j 为预期划分的簇数; y n
                                   k
                                                     k
                为第 n 个特征向量; C j 为第 k 个簇; μ k 为 C j 的均值           构 建 ,即 S pseudo = { S X 1 ,S X 2 ,⋯,S X i ,⋯,S X I  },其 中
                                                                    为类别 X i 对应的伪样本集,其高斯混合计算
                向量。                                              S X i
                                                                 式为:
                     采用手肘法确定最优聚类簇数,即 SSE 随着
                                                                  p M ( y )= α 1 ⋅ p( y|u 1,Σ 1 )+ α 2 ⋅ p( y|u 2,Σ 2 )+ … +
                K j 的增大而变小。当 K j 小于真实聚类数时,随着
                K j 值的增大,SSE 的下降幅度很大;当 K j 到达真                         α i ⋅ p( y|u i,Σ i )+ … + α I ⋅ p( y|u I,Σ I)  (2)
                实聚类数后,随着 K j 值的增大,SSE 的下降幅度                      式中, p M ( ) 为概率密度函数; α i、、 u i、、 Σ i 分别为第 i
                骤减,最后趋于平缓。SSE 和 K j 的关系图是一个                      个 高 斯 分 布 的 混 合 系 数 、均 值 向 量 与 协 方 差 向
                手肘的形状,而这个肘部对应的 K j 值就是样本的                        量; I 为类别总数。
                最优聚类数。                                               计算高斯混合模型的方法采用迭代期望最
                     将每个局部单元内的像素集合在几何与多                          大化(expectation-maximum,EM)算法,假设训练
                源属性的约束下按最优 K j 划分,占比最多的簇保                        集 S X i  = { s 1 ,s 2 ,⋯,s N i  } 由 N i 个样本组成,令 GM i
                                                                                   X i
                                                                          X i
                                                                             X i
   83   84   85   86   87   88   89   90   91   92   93