Page 78 - 《武汉大学学报(信息科学版)》2025年第9期
P. 78

1806                            武 汉 大 学 学 报  (信 息 科 学 版)                        2025 年 9 月

                绿 -蓝 差 值 指 数(green-blue difference index,GB⁃                   表 2 实验方案信息
                   [27]                                            Table 2 The Information of Experimental Programs
                DI) 、超 绿 -超 红 差 值 指 数(excess green-excess
                red  difference  index,ExGR) [28] 、三 角 绿 度 指 数     实验方案                  特征组合
                                               [29]
                (triangular  greenness  index,TGI)  、修 正 超 绿          1                  光谱特征
                                                                      2              光谱特征+指数特征
                                                      [30]
                指数(modified excess green index,MExG) 、绿-
                                                                      3              光谱特征+纹理特征
                蓝 差 值 + 修 正 超 绿 指 数(green-blue difference+
                                                                      4              光谱特征+颜色特征
                modified  excess  green  index,GBDI+MExG) 。           5      光谱特征+指数特征+纹理特征+颜色特征
                                                        [31]
                计算式分别为:                                               6               所有特征优选组合
                               I ExG = 2g - r - b       (2)
                                I ExR = 1.4r - g        (3)      和 鲁 棒 性 被 广 泛 应 用 于 各 类 数 据 挖 掘 任 务 中 。
                                I ExB = 1.4b - g        (4)      随机森林通过以下步骤实现:
                                 I GRDI = g - r         (5)          1)Bootstrap 抽样。在原始样本集中有放回
                                 I GBDI = g - b         (6)      地随机抽样 N 个样本组成训练子集。每轮随机
                                                                                               N
                             I ExGR = 3g - 2.4r - b     (7)      采样中,训练子集中有(1−1/N) 比例的样本未
                                                                 被选中。当 N 足够大时,该比例约为 36.8%,这
                            I TGI = g - 0.39r - 0.61b   (8)
                                                                 些样本形成袋外(out of bag,OOB)数据,可用于
                        I MExG = 1.262g - 0.884r - 0.311b  (9)
                                                                 模型性能评估。
                      I GBDI+ MExG = 2.262g- 0.884r- 1.311b (10)
                                                                     2)随机特征选择。抽取 N 个训练子集生成 N
                     表 1 列举了各种特征及其数量。根据表 1 可
                                                                 棵决策树组成随机森林。在构建每棵决策树时,
                得到 28 种特征因子,即 4 种光谱特征、5 种指数特
                                                                 如果原始特征维度为 M,则从 M 个特征中随机选
                征、10 种纹理特征和 9 种颜色特征。
                                                                 取常数 m(m≪M)个特征子集,根据基尼指数,从
                            表 1 航空影像特征集描述                        m 个特征子集中选择最佳特征在决策树中进行节
                  Table 1 Description of Feature Sets of Aerial Images  点分裂。
                    特征                简称              特征数            3)集成决策。对于分类任务,最终结果通过
                  光谱特征              B、G、R、NIR           4        所有决策树的投票表决产生,投票得分高的类别
                  指数特征       NDVI、RVI、SAVI、NDWI、DVI     5
                                                                 即为分类结果。
                           GLCM_A、GLCM_Cor、GLCM_Con、
                  纹理特征                                  10       2.4 特征优选
                                 GLCM_E、GLCM_V
                                                                     特征优选的主要目的是减少数据冗余,降低
                           ExG、ExR、ExB、GRDI、GBDI、ExGR、
                  颜色特征                                  9        计算复杂度、提高模型效率。若直接采用表 1 中
                              TGI、MExG、GBDI+MExG
                                                                 全部特征因子进行分类,将会导致高维特征空间
                2.2 实验方案说明                                       计算复杂度增加、模型训练负担加重、冗余特征干
                     为了确定不同特征对黄河三角洲植被精细                          扰模型学习、分类性能和效率下降等问题。为解
                分类的重要程度,研究不同的特征变量对分类结                            决上述问题,本文采用随机森林特征重要性评估
                果的影响,探求提高植被分类精度的最佳特征组                            的方法筛选出对地物分类起关键作用的最优特征
                合方式,如表 2 所示,本文共设置了 6 种方案进行                       子 集 进 行 分 类 。 该 方 法 依 据 平 均 不 纯 度 减 少
                对比研究。以仅加入光谱特征的方案 1 为对照                          (mean decrease impurity,MDI)对 所 有 特 征 的 重
                组,分别融入指数特征、纹理特征与颜色特征构                            要性进行排列,通过逐步剔除低重要性特征,观察
                成方案 2、方案 3 与方案 4,方案 5 包含所有特征,                    模型分类精度的变化,在精度无明显下降的前提
                方案 6 对所有特征进行优选构建特征集。                             下,选择特征数量最少的组合作为最优特征子集。
                2.3 随机森林分类方法                                         随机森林中决策树构建的核心环节在于节
                     随机森林是当今运用广泛、高度灵活的一种                         点分裂时的特征选择。理想情况下,节点分裂使
                基于集成学习思想的经典机器学习算法,其本质                            得划分后的子节点样本属于同一类,即称分裂得
                是通过构建多棵决策树并集成其预测结果来实                             到的每个子节点是纯的,基尼指数是衡量样本集
                现更优的分类性能。该方法使用平均值来提高                             合的不纯度的重要指标。集合 D 的基尼指数 G
                预测精度和控制过度拟合,以其出色的泛化能力                            定义如下:
   73   74   75   76   77   78   79   80   81   82   83