Page 143 - 《武汉大学学报(信息科学版)》2025年第10期
P. 143

2078                            武 汉 大 学 学 报  (信 息 科 学 版)                       2025 年 10 月

                水体等无人区。经过筛选后,使农田火像素、稳                            谷歌地球影像中为耕地,则判断该像素是农田火
                定 灯 光 像 素 和 全 黑 像 素 的 训 练 样 本 数 量 均 为            像素(图 5(a)~5(c))。若像素一年内夜光辐亮度
                2 000 个。                                         较高且相对稳定,夜光像素内地表覆盖类型为人
                     3)对每个通过筛选的像素,计算其夜光辐亮                        造地表的比例大于 20%,且谷歌影像中为道路或
                度最大值、夜光辐亮度大于阈值的比例和夜光辐                            建成区,则判断该像素为稳定灯光像素(图 5(d)~
                亮 度 突 变 率 ,将 这 些 多 元 特 征 值 与 像 素 类 别 对           5(f))。若像素一年内夜光辐亮度接近于 0 且无
                应,作为进行 RF 分类的训练样本。                               明显波动,夜光像素内地表覆盖类型为裸地、林
                2.3 影像分类                                         地和水体等无人区的比例大于 20%,并且谷歌地
                     RF 是 对 多 个 决 策 树 进 行 集 成 评 估 的 算            球影像中为裸地、林地和水体等,则判断该像素
                法 [27] ,其 结 果 建 立 在 各 个 决 策 树 的 分 类 结 果 之        为全黑像素(图 5(g)~5(i))。若人工无法准确判
                上,但是往往能够达到整体精度超过单个组成部                            断,则为无效样本,不参与精度检验。
                分精度的效果。通过随机有放回地抽取样本构                                 3)计算混淆矩阵。根据分类结果统计每类
                建多棵决策树,根据每棵决策树分类结果的众数                            像素的数量,计算总体精度、生产者精度和用户
                综合得出最终分类结果。                                      精度,构建混淆矩阵。其中,总体精度是指正确
                     RF 作为一种经典的机器学习算法,降低了                        分类的结果数占总样本数的比重,计算公式为:
                过 拟 合 的 可 能 性 ,并 且 对 异 常 值 有 较 高 的 容 忍                                 n
                                                                                      ∑  S ii
                性,被广泛应用于地物分类             [28-29] 和火点识别  [30-31]
                                                                                  T =  i = 1             (4)
                等方面。本文通过 Scikit-Learn 程序包实现 RF 算                                        S
                法,参数如表 3 所示,使用程序包中的网格搜索方                         式中, T 表示总体精度; S 指有效样本总数; S ii 指
                法进行调参,其中 RF 的决策树数目为 10,自举重                       第 i 类被正确分类的样本数 ; n 为样本点的种类
                采 样 ,其 他 参 数 采 用 Scikit-Learn 程 序 包 的 默          数,本文中 n 为 3。
                认值。                                                  生产者精度是指真实参考样本被正确分类
                                                                 的比例,计算公式为:
                           表 3 本文中 RF 分类的参数
                                                                                        S ii
                 Table 3 Parameters of Random Forest Classification in             P i =                 (5)
                                                                                        S i
                                   the Study
                                                                 式中, P i 指第 i 类的生产者精度; S i 指验证集中第 i
                      名称                   描述
                                                                 类的样本数目。
                    Estimators           决策树个数
                                                                     用户精度是指在分类结果图中,落在某类别
                  MinSamplesLeaf    叶子节点的最小样本数目
                    BootStrap          是否自举重采样                   上的检验点被正确分类为该类别的比例,计算公
                 MinSamplesSplit  根据属性分裂节点时,所需的最少样本数             式为:
                    MaxDepth            树的最大深度                                          S ii
                                                                                   U i =                 (6)
                                                                                          *
                                                                                        S i
                2.4 精度检验                                         式中, U i 指第 i 类的用户精度; S i 指分类集中第 i
                                                                                              *
                     本文采用分层随机抽样的精度验证方式,步                         类的样本数目。
                骤如下:
                     1)随机抽取样本。从每个国家的分类结果                         3 结果与分析
                中随机抽取 100 个样本,包含 40 个农田火像素、
                30 个稳定灯光像素和 30 个全黑像素。10 个国家                      3.1 精度检验
                共计 1 000 个样本,将这些样本混合并随机打乱,                           本文基于 2021 年 VNP46 产品,使用 RF 分类
                隐藏分类结果。                                          方法对南部非洲 10 个大陆国家内的夜光像素进
                     2)人工判断分类结果。对第一步抽取的样                         行分类。表 4 展示了人工标注的训练样本中农田
                本,基于 VNP46A2 日级夜光影像提取的辐亮度                        火像素、稳定灯光像素和全黑像素 3 种特征的均
                时间序列、GlobeLand30 地表覆盖数据和谷歌地                      值。可以看出,农田火像素的夜光辐亮度突变率
                球影像,人工判别给出分类结果。若像素夜光辐                            显著大于其他两类像素,稳定灯光像素夜光辐亮
                亮度在农田火时间窗口内出现突然增长,夜光像                            度大于阈值的比例远超其他两类像素,全黑像素
                素内地表覆盖类型为耕地的比例大于 20%,并且                          的 夜 光 辐 亮 度 最 大 值 明 显 小 于 其 他 两 类 像 素 。
   138   139   140   141   142   143   144   145   146   147   148