Page 143 - 《武汉大学学报(信息科学版)》2025年第10期
P. 143
2078 武 汉 大 学 学 报 (信 息 科 学 版) 2025 年 10 月
水体等无人区。经过筛选后,使农田火像素、稳 谷歌地球影像中为耕地,则判断该像素是农田火
定 灯 光 像 素 和 全 黑 像 素 的 训 练 样 本 数 量 均 为 像素(图 5(a)~5(c))。若像素一年内夜光辐亮度
2 000 个。 较高且相对稳定,夜光像素内地表覆盖类型为人
3)对每个通过筛选的像素,计算其夜光辐亮 造地表的比例大于 20%,且谷歌影像中为道路或
度最大值、夜光辐亮度大于阈值的比例和夜光辐 建成区,则判断该像素为稳定灯光像素(图 5(d)~
亮 度 突 变 率 ,将 这 些 多 元 特 征 值 与 像 素 类 别 对 5(f))。若像素一年内夜光辐亮度接近于 0 且无
应,作为进行 RF 分类的训练样本。 明显波动,夜光像素内地表覆盖类型为裸地、林
2.3 影像分类 地和水体等无人区的比例大于 20%,并且谷歌地
RF 是 对 多 个 决 策 树 进 行 集 成 评 估 的 算 球影像中为裸地、林地和水体等,则判断该像素
法 [27] ,其 结 果 建 立 在 各 个 决 策 树 的 分 类 结 果 之 为全黑像素(图 5(g)~5(i))。若人工无法准确判
上,但是往往能够达到整体精度超过单个组成部 断,则为无效样本,不参与精度检验。
分精度的效果。通过随机有放回地抽取样本构 3)计算混淆矩阵。根据分类结果统计每类
建多棵决策树,根据每棵决策树分类结果的众数 像素的数量,计算总体精度、生产者精度和用户
综合得出最终分类结果。 精度,构建混淆矩阵。其中,总体精度是指正确
RF 作为一种经典的机器学习算法,降低了 分类的结果数占总样本数的比重,计算公式为:
过 拟 合 的 可 能 性 ,并 且 对 异 常 值 有 较 高 的 容 忍 n
∑ S ii
性,被广泛应用于地物分类 [28-29] 和火点识别 [30-31]
T = i = 1 (4)
等方面。本文通过 Scikit-Learn 程序包实现 RF 算 S
法,参数如表 3 所示,使用程序包中的网格搜索方 式中, T 表示总体精度; S 指有效样本总数; S ii 指
法进行调参,其中 RF 的决策树数目为 10,自举重 第 i 类被正确分类的样本数 ; n 为样本点的种类
采 样 ,其 他 参 数 采 用 Scikit-Learn 程 序 包 的 默 数,本文中 n 为 3。
认值。 生产者精度是指真实参考样本被正确分类
的比例,计算公式为:
表 3 本文中 RF 分类的参数
S ii
Table 3 Parameters of Random Forest Classification in P i = (5)
S i
the Study
式中, P i 指第 i 类的生产者精度; S i 指验证集中第 i
名称 描述
类的样本数目。
Estimators 决策树个数
用户精度是指在分类结果图中,落在某类别
MinSamplesLeaf 叶子节点的最小样本数目
BootStrap 是否自举重采样 上的检验点被正确分类为该类别的比例,计算公
MinSamplesSplit 根据属性分裂节点时,所需的最少样本数 式为:
MaxDepth 树的最大深度 S ii
U i = (6)
*
S i
2.4 精度检验 式中, U i 指第 i 类的用户精度; S i 指分类集中第 i
*
本文采用分层随机抽样的精度验证方式,步 类的样本数目。
骤如下:
1)随机抽取样本。从每个国家的分类结果 3 结果与分析
中随机抽取 100 个样本,包含 40 个农田火像素、
30 个稳定灯光像素和 30 个全黑像素。10 个国家 3.1 精度检验
共计 1 000 个样本,将这些样本混合并随机打乱, 本文基于 2021 年 VNP46 产品,使用 RF 分类
隐藏分类结果。 方法对南部非洲 10 个大陆国家内的夜光像素进
2)人工判断分类结果。对第一步抽取的样 行分类。表 4 展示了人工标注的训练样本中农田
本,基于 VNP46A2 日级夜光影像提取的辐亮度 火像素、稳定灯光像素和全黑像素 3 种特征的均
时间序列、GlobeLand30 地表覆盖数据和谷歌地 值。可以看出,农田火像素的夜光辐亮度突变率
球影像,人工判别给出分类结果。若像素夜光辐 显著大于其他两类像素,稳定灯光像素夜光辐亮
亮度在农田火时间窗口内出现突然增长,夜光像 度大于阈值的比例远超其他两类像素,全黑像素
素内地表覆盖类型为耕地的比例大于 20%,并且 的 夜 光 辐 亮 度 最 大 值 明 显 小 于 其 他 两 类 像 素 。

