Page 79 - 《武汉大学学报(信息科学版)》2025年第9期
P. 79

第 50 卷第 9 期       刘逸娴等:融合颜色特征的随机森林特征优选的黄河三角洲植被信息分类                                   1807

                                         )
                               B                 B              3 结果与分析
                      G ( D) =  ∑ p b( 1 - p b = 1 - ∑  p b  2  (11)
                              b = 1             b = 1
                式中,B 为训练样本类别总数; p b 表示集合 D 中随                       方案 1~5 作为对比实验,不需要进行特征选
                机选中样本属于类别 b 的概率; 1 - p b 表示样本                   择,这 5 种方案用于探求不同特征变量对黄河三

                被分错的概率。如果样本集合 D 根据特征 A 的                        角洲湿地信息提取精度的影响。在方案 5 的基础
                某个取值 a 被划分为 D 1 和 D 2 两个部分,则在特征                 上,采用随机森林算法对 28 个特征变量进行筛
                A 的条件下,集合 D 的基尼指数计算式为:                          选,选择优选的特征组合构成方案 6。
                                   |            |               3.1 优选特征的确定
                               | D 1        | D 2
                     G ( D,A) =     G ( D 1) +   G ( D 2)(12)
                                | D |        | D |                  通过平均不纯度减少的方式可以计算出模
                式中, | D |、 | D 1 |、 | D 2 |分别表示集合 D、 D 1、 D 2 中的  型中每个特征的重要性,其重要性结果如图 3 所
                样本数。在随机森林中,当使用某个特征进行节                           示,其中,PCA1_GLCM_A 为第一主成分的角二
                点分裂后平均基尼指数的减少程度越大,表明该                           阶 矩 ,PCA2_GLCM_A 为 第 二 主 成 分 的 角 二 阶
                特征提升子节点纯度的程度越大,对样本分类的                           矩,依此类推。
                贡献越大,其重要性评分也就越高。平均不纯度                               由图 3 可知,重要性位居前 10 的特征中,航
                减少表示为:                                          空影像的原始波段仅占 1 个,指数特征和颜色特
                             1  K                   ] )         征分别占据 4 个和 5 个,而纹理特征则未进入重
                                      D
                       ΔG =    ∑[ G n( ) - G n( D,A    (13)
                             K                                  要性前列。对植被提取分类重要性高的多为指
                               n = 1
                式中,K 为随机森林中决策树的个数; G n( D) 表明                   数特征与颜色特征,说明这两类特征对分类有较
                第 n 棵决策树 G ( D) 划分前集合 D 的基尼指数;                  大的贡献。而唯一的原始波段位居第十,纹理特
                G n( D,A) 表示第 n 棵决策树 G ( D,A) 通过特征 A            征不在前列,这说明影像的原始特征与纹理特征
                划分后集合 D 的基尼指数。                                  对植被精细提取分类重要性较低,具有较少的贡
                    使用 OOB 误差进行模型评估以确定模型最                       献 度 。 NDWI 特 征 的 重 要 性 得 分 最 高 ,高 达
                优特征数量。首先对特征重要性进行降序排列,                           14.25%,这是因为 NDWI 对水体十分敏感,能够
                依次构建包含前 1~28 个特征的模型,计算各模                        被有效识别出来。NDWI 在黄河三角洲地区可
                型的 OOB 误差,最优特征数量确定为 OOB 误差                      以很好区分植被与非植被区域,尤其是该非植被
                达到稳定最小值时所对应的特征子集规模。                             区 域 中 包 含 大 量 的 水 体 与 潮 滩 。 PCA1_GL⁃
                2.5 精度评价                                        CM_A 特征重要性得分最低,只有 0.01%,几乎不
                    本文根据混淆矩阵对影像分类精度进行评                          产生影响。
                价分析,用总体精度(overall accuracy, OA)、Kap⁃                以特征重要性评估结果为参考,逐步增加特
                pa 系数、用户精度(user accuracy, UA)和生产者               征数量,以分析不同特征组合模型下的 OOB 精
                精度(producer accuracy, PA)来度量结果的准确               度,如图 4 所示。由图 4 可知,当特征数为 1~10
                度和可靠性。各指标的计算式分别为:                               时,精度逐渐增加,在这个过程中,特征变量相关
                                       N
                                      ∑  J ij                   性不高、冗余度小,从而能够提高分类模型的性
                               p OA =  i = 1           (14)     能。但当特征个数从 10 开始增大,OOB 精度基
                                      N  N
                                     ∑∑   J ij                  本维持不变,起伏很小。特征个数过小会导致精
                                     i = 1 j = 1
                         N  N    N      N   N    N              度不够,使得分类结果不理想。特征数量过多则
                        ∑∑ ∑       J ii - ∑ ∑ ∑    J ij )       需要计算的工作量增大,精度变化极小,增长运
                                          (
                             J ij ⋅
                                              J ji ⋅
                        i = 1 j = 1  i = 1  i = 1  j = 1  j = 1
                 p Kappa=                              (15)
                        N  N    N  N     N   N     N            算时间,反而可能会出现过拟合的现象,导致精
                       ∑∑ ∑∑        J ij - ∑ ∑ ∑     J ij )     度下降。本研究主要选取前 10 个特征顺序组合
                                           (
                                               J ji ⋅
                            J ij ⋅
                       i = 1 j = 1  i = 1 j = 1  i = 1  j = 1  j = 1
                                                       (16)     用以进行分类,此时 OOB 精度可达 96.6%。
                                 p UA = J ii J i +
                                 p PA = J ii J +i      (17)     3.2 提取结果及精度评价分析
                式中,N 为混淆矩阵的行列数;J ij 表示分类所得的                         6 种不同方案的提取结果如图 5 所示。与原
                第 i 类归属于实际类型的第 j 类的数量;J ii 为混淆                  始图像对比定性分析可以发现,方案 1~3 对芦苇
                矩阵第 i 行、第 i 列上的样本数;J i+ 和 J +i 分别为第 i           与碱蓬的提取效果不理想,有较多混分情况,而
                行和第 i 列的样本总数。                                   加入了颜色特征的方案 4~6 能将两者较好区分
   74   75   76   77   78   79   80   81   82   83   84