Page 88 - 《武汉大学学报(信息科学版)》2025年第9期
P. 88
1816 武 汉 大 学 学 报 (信 息 科 学 版) 2025 年 9 月
层 将 不 同 的 植 被 类 型 分 别 构 建 高 斯 混 合 模 型 留并继承原始植被分类产品类别标签。但现有
(Gaussian mixture model,GMM),通 过 求 解 植被分类产品不能保证每个图斑内都正确分类,
GMM 的过程去除错分斑块以及步骤 1)带来的错 因此当前得到的植被分类伪样本集 S pseudo 中存在
误标签。 一定数量的错误,需要进一步优化迁移。局部聚
3)采用长时序植被生长期 Landsat 数据进行 类 分 析 的 总 时 间 复 杂 度 为 O ( K j Nd )⋅ T,其 中 d
变化检测分析,确定植被增益、损失、不变区域, 为特征维度,T 为迭代次数。优化方法如图 3 所
结 合 不 变 区 域 迁 移 样 本 ,构 建 多 时 相 训 练 样 示。在图斑内将占比最多的簇保留并继承植被
本集。 分类标签,得到伪样本。
4)通过输入的多时相训练样本集及多源遥
感数据进行特征筛选,并采用随机森林方法(ran⁃
dom forest,RF)分层分类,根据土地利用数据进
行掩膜,从而获得多时相的自然植被分类制图。
2.2 局部到全局分层样本迁移与优化
大标签分类结果中存在较大的噪声,因此首
先在局部对样本进行迁移优化。以《1∶1 000 000
中国植被图集》数据集中植被群系图斑的多边形
信息作为几何约束,为有效约束斑块内的错误植
图 3 局部聚类优化
被分类信息,本文处理研究区与大标签样本数据
Fig. 3 Local Optimization
集相近时相的 Landsat 植被生长期遥感影像,将
影 像 的 光 谱 特 征 、植 被 指 数 、水 体 指 数 、纹 理 特 为了将噪声从伪样本集 S pseudo 中剔除,获得优
征 、气 象 数 据 、DEM 及 其 衍 生 数 据 作 为 特 征 输 化 后 的 训 练 样 本 集 S( S ∈ S pseudo ),本 文 采 用 一 种
入,构建相应图斑的特征集合,作为图斑聚类特 基于高斯混合模型的植被分类特征优选的全局
征的输入。 分层样本优化方法。从全局多源特征出发,结合
将 K-means 方法作为最基础的聚类方法,对 植被在不同地域分异中的尺度效应,采用 RF 方
第 j 个植被类型图斑的逐斑块特征数据集实施聚 法对特征集合 Y v i 进行优选,将优选特征集合作
类分析。以第 i 个斑块 v i 为例,其由 N 个像元组 为关键特征输入模型,完成对植被分层分类类别
。假设第 j 个植被类 的全局优化。采用统计方法对伪样本集中的错
成,对应的属性特征集为 Y v i
型图斑对应的类别标签为 X j,为了从中分离出与 误样本进行剔除,分两层对 S pseudo 构建高斯混合模
X j 正确关联的子集,K-means 方法通过最小化平 型;将高斯混合模型样本结果与原始标签进行对
方误差((sum of squared errors, SSE)完成对簇的 比,保留正确样本,完成全局样本优化,获得优化
聚类划分,计算式为: 后的训练样本集。
K j 对 S pseudo 按照森林、灌丛、草地以及植被型两
2
e SSE = ∑ ∑ y n - μ k (1)
k 2 层分别对应植被类别标签 X i 进行划分,在不同的
k = 1 y n ∈ C j
分类体系下对伪样本集进行逐类别的伪样本集
式中, e SSE 为平方误差; K j 为预期划分的簇数; y n
k
k
为第 n 个特征向量; C j 为第 k 个簇; μ k 为 C j 的均值 构 建 ,即 S pseudo = { S X 1 ,S X 2 ,⋯,S X i ,⋯,S X I },其 中
为类别 X i 对应的伪样本集,其高斯混合计算
向量。 S X i
式为:
采用手肘法确定最优聚类簇数,即 SSE 随着
p M ( y )= α 1 ⋅ p( y|u 1,Σ 1 )+ α 2 ⋅ p( y|u 2,Σ 2 )+ … +
K j 的增大而变小。当 K j 小于真实聚类数时,随着
K j 值的增大,SSE 的下降幅度很大;当 K j 到达真 α i ⋅ p( y|u i,Σ i )+ … + α I ⋅ p( y|u I,Σ I) (2)
实聚类数后,随着 K j 值的增大,SSE 的下降幅度 式中, p M ( ) 为概率密度函数; α i、、 u i、、 Σ i 分别为第 i
骤减,最后趋于平缓。SSE 和 K j 的关系图是一个 个 高 斯 分 布 的 混 合 系 数 、均 值 向 量 与 协 方 差 向
手肘的形状,而这个肘部对应的 K j 值就是样本的 量; I 为类别总数。
最优聚类数。 计算高斯混合模型的方法采用迭代期望最
将每个局部单元内的像素集合在几何与多 大化(expectation-maximum,EM)算法,假设训练
源属性的约束下按最优 K j 划分,占比最多的簇保 集 S X i = { s 1 ,s 2 ,⋯,s N i } 由 N i 个样本组成,令 GM i
X i
X i
X i

