Page 79 - 《武汉大学学报(信息科学版)》2025年第9期
P. 79
第 50 卷第 9 期 刘逸娴等:融合颜色特征的随机森林特征优选的黄河三角洲植被信息分类 1807
)
B B 3 结果与分析
G ( D) = ∑ p b( 1 - p b = 1 - ∑ p b 2 (11)
b = 1 b = 1
式中,B 为训练样本类别总数; p b 表示集合 D 中随 方案 1~5 作为对比实验,不需要进行特征选
机选中样本属于类别 b 的概率; 1 - p b 表示样本 择,这 5 种方案用于探求不同特征变量对黄河三
被分错的概率。如果样本集合 D 根据特征 A 的 角洲湿地信息提取精度的影响。在方案 5 的基础
某个取值 a 被划分为 D 1 和 D 2 两个部分,则在特征 上,采用随机森林算法对 28 个特征变量进行筛
A 的条件下,集合 D 的基尼指数计算式为: 选,选择优选的特征组合构成方案 6。
| | 3.1 优选特征的确定
| D 1 | D 2
G ( D,A) = G ( D 1) + G ( D 2)(12)
| D | | D | 通过平均不纯度减少的方式可以计算出模
式中, | D |、 | D 1 |、 | D 2 |分别表示集合 D、 D 1、 D 2 中的 型中每个特征的重要性,其重要性结果如图 3 所
样本数。在随机森林中,当使用某个特征进行节 示,其中,PCA1_GLCM_A 为第一主成分的角二
点分裂后平均基尼指数的减少程度越大,表明该 阶 矩 ,PCA2_GLCM_A 为 第 二 主 成 分 的 角 二 阶
特征提升子节点纯度的程度越大,对样本分类的 矩,依此类推。
贡献越大,其重要性评分也就越高。平均不纯度 由图 3 可知,重要性位居前 10 的特征中,航
减少表示为: 空影像的原始波段仅占 1 个,指数特征和颜色特
1 K ] ) 征分别占据 4 个和 5 个,而纹理特征则未进入重
D
ΔG = ∑[ G n( ) - G n( D,A (13)
K 要性前列。对植被提取分类重要性高的多为指
n = 1
式中,K 为随机森林中决策树的个数; G n( D) 表明 数特征与颜色特征,说明这两类特征对分类有较
第 n 棵决策树 G ( D) 划分前集合 D 的基尼指数; 大的贡献。而唯一的原始波段位居第十,纹理特
G n( D,A) 表示第 n 棵决策树 G ( D,A) 通过特征 A 征不在前列,这说明影像的原始特征与纹理特征
划分后集合 D 的基尼指数。 对植被精细提取分类重要性较低,具有较少的贡
使用 OOB 误差进行模型评估以确定模型最 献 度 。 NDWI 特 征 的 重 要 性 得 分 最 高 ,高 达
优特征数量。首先对特征重要性进行降序排列, 14.25%,这是因为 NDWI 对水体十分敏感,能够
依次构建包含前 1~28 个特征的模型,计算各模 被有效识别出来。NDWI 在黄河三角洲地区可
型的 OOB 误差,最优特征数量确定为 OOB 误差 以很好区分植被与非植被区域,尤其是该非植被
达到稳定最小值时所对应的特征子集规模。 区 域 中 包 含 大 量 的 水 体 与 潮 滩 。 PCA1_GL⁃
2.5 精度评价 CM_A 特征重要性得分最低,只有 0.01%,几乎不
本文根据混淆矩阵对影像分类精度进行评 产生影响。
价分析,用总体精度(overall accuracy, OA)、Kap⁃ 以特征重要性评估结果为参考,逐步增加特
pa 系数、用户精度(user accuracy, UA)和生产者 征数量,以分析不同特征组合模型下的 OOB 精
精度(producer accuracy, PA)来度量结果的准确 度,如图 4 所示。由图 4 可知,当特征数为 1~10
度和可靠性。各指标的计算式分别为: 时,精度逐渐增加,在这个过程中,特征变量相关
N
∑ J ij 性不高、冗余度小,从而能够提高分类模型的性
p OA = i = 1 (14) 能。但当特征个数从 10 开始增大,OOB 精度基
N N
∑∑ J ij 本维持不变,起伏很小。特征个数过小会导致精
i = 1 j = 1
N N N N N N 度不够,使得分类结果不理想。特征数量过多则
∑∑ ∑ J ii - ∑ ∑ ∑ J ij ) 需要计算的工作量增大,精度变化极小,增长运
(
J ij ⋅
J ji ⋅
i = 1 j = 1 i = 1 i = 1 j = 1 j = 1
p Kappa= (15)
N N N N N N N 算时间,反而可能会出现过拟合的现象,导致精
∑∑ ∑∑ J ij - ∑ ∑ ∑ J ij ) 度下降。本研究主要选取前 10 个特征顺序组合
(
J ji ⋅
J ij ⋅
i = 1 j = 1 i = 1 j = 1 i = 1 j = 1 j = 1
(16) 用以进行分类,此时 OOB 精度可达 96.6%。
p UA = J ii J i +
p PA = J ii J +i (17) 3.2 提取结果及精度评价分析
式中,N 为混淆矩阵的行列数;J ij 表示分类所得的 6 种不同方案的提取结果如图 5 所示。与原
第 i 类归属于实际类型的第 j 类的数量;J ii 为混淆 始图像对比定性分析可以发现,方案 1~3 对芦苇
矩阵第 i 行、第 i 列上的样本数;J i+ 和 J +i 分别为第 i 与碱蓬的提取效果不理想,有较多混分情况,而
行和第 i 列的样本总数。 加入了颜色特征的方案 4~6 能将两者较好区分

