Page 78 - 《武汉大学学报（信息科学版）》2025年第9期

P. 78

1806 武汉大学学报（信息科学版） 2025 年 9 月

绿 -蓝差值指数（green-blue difference index，GB⁃ 表 2 实验方案信息
［27］ Table 2 The Information of Experimental Programs
DI）、超绿 -超红差值指数（excess green-excess
red difference index，ExGR）［28］、三角绿度指数实验方案特征组合
［29］
（triangular greenness index，TGI）、修正超绿 1 光谱特征
2 光谱特征+指数特征
［30］
指数（modified excess green index，MExG）、绿-
3 光谱特征+纹理特征
蓝差值 + 修正超绿指数（green-blue difference+
4 光谱特征+颜色特征
modified excess green index，GBDI+MExG）。 5 光谱特征+指数特征+纹理特征+颜色特征
［31］
计算式分别为： 6 所有特征优选组合
I ExG = 2g - r - b （2）
I ExR = 1.4r - g （3）和鲁棒性被广泛应用于各类数据挖掘任务中。
I ExB = 1.4b - g （4）随机森林通过以下步骤实现：
I GRDI = g - r （5） 1）Bootstrap 抽样。在原始样本集中有放回
I GBDI = g - b （6）地随机抽样 N 个样本组成训练子集。每轮随机
N
I ExGR = 3g - 2.4r - b （7）采样中，训练子集中有（1−1/N）比例的样本未
被选中。当 N 足够大时，该比例约为 36.8%，这
I TGI = g - 0.39r - 0.61b （8）
些样本形成袋外（out of bag，OOB）数据，可用于
I MExG = 1.262g - 0.884r - 0.311b （9）
模型性能评估。
I GBDI+ MExG = 2.262g- 0.884r- 1.311b （10）
2）随机特征选择。抽取 N 个训练子集生成 N
表 1 列举了各种特征及其数量。根据表 1 可
棵决策树组成随机森林。在构建每棵决策树时，
得到 28 种特征因子，即 4 种光谱特征、5 种指数特
如果原始特征维度为 M，则从 M 个特征中随机选
征、10 种纹理特征和 9 种颜色特征。
取常数 m（m≪M）个特征子集，根据基尼指数，从
表 1 航空影像特征集描述 m 个特征子集中选择最佳特征在决策树中进行节
Table 1 Description of Feature Sets of Aerial Images 点分裂。
特征简称特征数 3）集成决策。对于分类任务，最终结果通过
光谱特征 B、G、R、NIR 4 所有决策树的投票表决产生，投票得分高的类别
指数特征 NDVI、RVI、SAVI、NDWI、DVI 5
即为分类结果。
GLCM_A、GLCM_Cor、GLCM_Con、
纹理特征 10 2.4 特征优选
GLCM_E、GLCM_V
特征优选的主要目的是减少数据冗余，降低
ExG、ExR、ExB、GRDI、GBDI、ExGR、
颜色特征 9 计算复杂度、提高模型效率。若直接采用表 1 中
TGI、MExG、GBDI+MExG
全部特征因子进行分类，将会导致高维特征空间
2.2 实验方案说明计算复杂度增加、模型训练负担加重、冗余特征干
为了确定不同特征对黄河三角洲植被精细扰模型学习、分类性能和效率下降等问题。为解
分类的重要程度，研究不同的特征变量对分类结决上述问题，本文采用随机森林特征重要性评估
果的影响，探求提高植被分类精度的最佳特征组的方法筛选出对地物分类起关键作用的最优特征
合方式，如表 2 所示，本文共设置了 6 种方案进行子集进行分类。该方法依据平均不纯度减少
对比研究。以仅加入光谱特征的方案 1 为对照（mean decrease impurity，MDI）对所有特征的重
组，分别融入指数特征、纹理特征与颜色特征构要性进行排列，通过逐步剔除低重要性特征，观察
成方案 2、方案 3 与方案 4，方案 5 包含所有特征，模型分类精度的变化，在精度无明显下降的前提
方案 6 对所有特征进行优选构建特征集。下，选择特征数量最少的组合作为最优特征子集。
2.3 随机森林分类方法随机森林中决策树构建的核心环节在于节
随机森林是当今运用广泛、高度灵活的一种点分裂时的特征选择。理想情况下，节点分裂使
基于集成学习思想的经典机器学习算法，其本质得划分后的子节点样本属于同一类，即称分裂得
是通过构建多棵决策树并集成其预测结果来实到的每个子节点是纯的，基尼指数是衡量样本集
现更优的分类性能。该方法使用平均值来提高合的不纯度的重要指标。集合 D 的基尼指数 G
预测精度和控制过度拟合，以其出色的泛化能力定义如下：

73 74 75 76 77 78 79 80 81 82 83