Page 78 - 《武汉大学学报(信息科学版)》2025年第9期
P. 78
1806 武 汉 大 学 学 报 (信 息 科 学 版) 2025 年 9 月
绿 -蓝 差 值 指 数(green-blue difference index,GB⁃ 表 2 实验方案信息
[27] Table 2 The Information of Experimental Programs
DI) 、超 绿 -超 红 差 值 指 数(excess green-excess
red difference index,ExGR) [28] 、三 角 绿 度 指 数 实验方案 特征组合
[29]
(triangular greenness index,TGI) 、修 正 超 绿 1 光谱特征
2 光谱特征+指数特征
[30]
指数(modified excess green index,MExG) 、绿-
3 光谱特征+纹理特征
蓝 差 值 + 修 正 超 绿 指 数(green-blue difference+
4 光谱特征+颜色特征
modified excess green index,GBDI+MExG) 。 5 光谱特征+指数特征+纹理特征+颜色特征
[31]
计算式分别为: 6 所有特征优选组合
I ExG = 2g - r - b (2)
I ExR = 1.4r - g (3) 和 鲁 棒 性 被 广 泛 应 用 于 各 类 数 据 挖 掘 任 务 中 。
I ExB = 1.4b - g (4) 随机森林通过以下步骤实现:
I GRDI = g - r (5) 1)Bootstrap 抽样。在原始样本集中有放回
I GBDI = g - b (6) 地随机抽样 N 个样本组成训练子集。每轮随机
N
I ExGR = 3g - 2.4r - b (7) 采样中,训练子集中有(1−1/N) 比例的样本未
被选中。当 N 足够大时,该比例约为 36.8%,这
I TGI = g - 0.39r - 0.61b (8)
些样本形成袋外(out of bag,OOB)数据,可用于
I MExG = 1.262g - 0.884r - 0.311b (9)
模型性能评估。
I GBDI+ MExG = 2.262g- 0.884r- 1.311b (10)
2)随机特征选择。抽取 N 个训练子集生成 N
表 1 列举了各种特征及其数量。根据表 1 可
棵决策树组成随机森林。在构建每棵决策树时,
得到 28 种特征因子,即 4 种光谱特征、5 种指数特
如果原始特征维度为 M,则从 M 个特征中随机选
征、10 种纹理特征和 9 种颜色特征。
取常数 m(m≪M)个特征子集,根据基尼指数,从
表 1 航空影像特征集描述 m 个特征子集中选择最佳特征在决策树中进行节
Table 1 Description of Feature Sets of Aerial Images 点分裂。
特征 简称 特征数 3)集成决策。对于分类任务,最终结果通过
光谱特征 B、G、R、NIR 4 所有决策树的投票表决产生,投票得分高的类别
指数特征 NDVI、RVI、SAVI、NDWI、DVI 5
即为分类结果。
GLCM_A、GLCM_Cor、GLCM_Con、
纹理特征 10 2.4 特征优选
GLCM_E、GLCM_V
特征优选的主要目的是减少数据冗余,降低
ExG、ExR、ExB、GRDI、GBDI、ExGR、
颜色特征 9 计算复杂度、提高模型效率。若直接采用表 1 中
TGI、MExG、GBDI+MExG
全部特征因子进行分类,将会导致高维特征空间
2.2 实验方案说明 计算复杂度增加、模型训练负担加重、冗余特征干
为了确定不同特征对黄河三角洲植被精细 扰模型学习、分类性能和效率下降等问题。为解
分类的重要程度,研究不同的特征变量对分类结 决上述问题,本文采用随机森林特征重要性评估
果的影响,探求提高植被分类精度的最佳特征组 的方法筛选出对地物分类起关键作用的最优特征
合方式,如表 2 所示,本文共设置了 6 种方案进行 子 集 进 行 分 类 。 该 方 法 依 据 平 均 不 纯 度 减 少
对比研究。以仅加入光谱特征的方案 1 为对照 (mean decrease impurity,MDI)对 所 有 特 征 的 重
组,分别融入指数特征、纹理特征与颜色特征构 要性进行排列,通过逐步剔除低重要性特征,观察
成方案 2、方案 3 与方案 4,方案 5 包含所有特征, 模型分类精度的变化,在精度无明显下降的前提
方案 6 对所有特征进行优选构建特征集。 下,选择特征数量最少的组合作为最优特征子集。
2.3 随机森林分类方法 随机森林中决策树构建的核心环节在于节
随机森林是当今运用广泛、高度灵活的一种 点分裂时的特征选择。理想情况下,节点分裂使
基于集成学习思想的经典机器学习算法,其本质 得划分后的子节点样本属于同一类,即称分裂得
是通过构建多棵决策树并集成其预测结果来实 到的每个子节点是纯的,基尼指数是衡量样本集
现更优的分类性能。该方法使用平均值来提高 合的不纯度的重要指标。集合 D 的基尼指数 G
预测精度和控制过度拟合,以其出色的泛化能力 定义如下:

