Page 79 - 《武汉大学学报（信息科学版）》2025年第9期

P. 79

第 50 卷第 9 期刘逸娴等：融合颜色特征的随机森林特征优选的黄河三角洲植被信息分类 1807

)
B B 3 结果与分析
G ( D) = ∑ p b( 1 - p b = 1 - ∑ p b 2 （11）
b = 1 b = 1
式中，B 为训练样本类别总数； p b 表示集合 D 中随方案 1~5 作为对比实验，不需要进行特征选
机选中样本属于类别 b 的概率； 1 - p b 表示样本择，这 5 种方案用于探求不同特征变量对黄河三

被分错的概率。如果样本集合 D 根据特征 A 的角洲湿地信息提取精度的影响。在方案 5 的基础
某个取值 a 被划分为 D 1 和 D 2 两个部分，则在特征上，采用随机森林算法对 28 个特征变量进行筛
A 的条件下，集合 D 的基尼指数计算式为：选，选择优选的特征组合构成方案 6。
| | 3.1 优选特征的确定
| D 1 | D 2
G ( D,A) = G ( D 1) + G ( D 2)（12）
| D | | D | 通过平均不纯度减少的方式可以计算出模
式中， | D |、 | D 1 |、 | D 2 |分别表示集合 D、 D 1、 D 2 中的型中每个特征的重要性，其重要性结果如图 3 所
样本数。在随机森林中，当使用某个特征进行节示，其中，PCA1_GLCM_A 为第一主成分的角二
点分裂后平均基尼指数的减少程度越大，表明该阶矩，PCA2_GLCM_A 为第二主成分的角二阶
特征提升子节点纯度的程度越大，对样本分类的矩，依此类推。
贡献越大，其重要性评分也就越高。平均不纯度由图 3 可知，重要性位居前 10 的特征中，航
减少表示为：空影像的原始波段仅占 1 个，指数特征和颜色特
1 K ] ) 征分别占据 4 个和 5 个，而纹理特征则未进入重
D
ΔG = ∑[ G n( ) - G n( D,A （13）
K 要性前列。对植被提取分类重要性高的多为指
n = 1
式中，K 为随机森林中决策树的个数； G n( D) 表明数特征与颜色特征，说明这两类特征对分类有较
第 n 棵决策树 G ( D) 划分前集合 D 的基尼指数；大的贡献。而唯一的原始波段位居第十，纹理特
G n( D，A) 表示第 n 棵决策树 G ( D，A) 通过特征 A 征不在前列，这说明影像的原始特征与纹理特征
划分后集合 D 的基尼指数。对植被精细提取分类重要性较低，具有较少的贡
使用 OOB 误差进行模型评估以确定模型最献度。 NDWI 特征的重要性得分最高，高达
优特征数量。首先对特征重要性进行降序排列， 14.25%，这是因为 NDWI 对水体十分敏感，能够
依次构建包含前 1~28 个特征的模型，计算各模被有效识别出来。NDWI 在黄河三角洲地区可
型的 OOB 误差，最优特征数量确定为 OOB 误差以很好区分植被与非植被区域，尤其是该非植被
达到稳定最小值时所对应的特征子集规模。区域中包含大量的水体与潮滩。 PCA1_GL⁃
2.5 精度评价 CM_A 特征重要性得分最低，只有 0.01%，几乎不
本文根据混淆矩阵对影像分类精度进行评产生影响。
价分析，用总体精度（overall accuracy， OA）、Kap⁃ 以特征重要性评估结果为参考，逐步增加特
pa 系数、用户精度（user accuracy， UA）和生产者征数量，以分析不同特征组合模型下的 OOB 精
精度（producer accuracy， PA）来度量结果的准确度，如图 4 所示。由图 4 可知，当特征数为 1~10
度和可靠性。各指标的计算式分别为：时，精度逐渐增加，在这个过程中，特征变量相关
N
∑ J ij 性不高、冗余度小，从而能够提高分类模型的性
p OA = i = 1 （14）能。但当特征个数从 10 开始增大，OOB 精度基
N N
∑∑ J ij 本维持不变，起伏很小。特征个数过小会导致精
i = 1 j = 1
N N N N N N 度不够，使得分类结果不理想。特征数量过多则
∑∑ ∑ J ii - ∑ ∑ ∑ J ij ) 需要计算的工作量增大，精度变化极小，增长运
(
J ij ⋅
J ji ⋅
i = 1 j = 1 i = 1 i = 1 j = 1 j = 1
p Kappa= （15）
N N N N N N N 算时间，反而可能会出现过拟合的现象，导致精
∑∑ ∑∑ J ij - ∑ ∑ ∑ J ij ) 度下降。本研究主要选取前 10 个特征顺序组合
(
J ji ⋅
J ij ⋅
i = 1 j = 1 i = 1 j = 1 i = 1 j = 1 j = 1
（16）用以进行分类，此时 OOB 精度可达 96.6%。
p UA = J ii J i +
p PA = J ii J +i （17） 3.2 提取结果及精度评价分析
式中，N 为混淆矩阵的行列数；J ij 表示分类所得的 6 种不同方案的提取结果如图 5 所示。与原
第 i 类归属于实际类型的第 j 类的数量；J ii 为混淆始图像对比定性分析可以发现，方案 1~3 对芦苇
矩阵第 i 行、第 i 列上的样本数；J i+ 和 J +i 分别为第 i 与碱蓬的提取效果不理想，有较多混分情况，而
行和第 i 列的样本总数。加入了颜色特征的方案 4~6 能将两者较好区分

74 75 76 77 78 79 80 81 82 83 84