Page 59 - 《武汉大学学报(信息科学版)》2025年第6期
P. 59

第 50 卷第 6 期              谢亚坤等:顾及小目标特征的无人机影像人员检测方法                                    1081


                malization,  BN)和 参 数 化 线 性 单 元(parametric      的加工,以增强小目标人员的特征表示能力。联
                rectified linear unit, PReLU)等 操 作 进 行 进 一 步    合特征获取可表示为:
                            F joint = PReLU ( BN ( Conv 3 × 3 ( Conv 1 × 1 ( X ) ) ⊕DilatedConv( Conv 1 × 1 ( X ) ) ) )  (6)
                式中,X 为输入特征;F joint 为联合特征;Conv n×n 表             征 表 达 。 而 全 局 上 下 文 特 征 则 通 过 GAP 和
                示 n×n 卷 积 ;DilatedConv 表 示 扩 张 卷 积 ;⊕ 表         MLP 捕获图像的整体语义信息,反映出更全面
                示特征连接。                                          的上下文关系。两者的结合使得模型既能精准
                    2)全局上下文特征提取。通过全局平均池                         关注局部细节,又具备对全局背景的理解,从而
                化(global average pooling,GAP)来 聚 合 整 个 特        显 著 提 升 特 征 表 达 的 完 整 性 与 判 别 力 ,为 小 目
                征 图 的 全 局 信 息 ,生 成 全 局 特 征 向 量 。 该 特 征          标对象检测提供更为精确的支持。
                向 量 捕 获 了 输 入 图 像 中 每 个 通 道 的 平 均 响 应 ,             3)上下文信息融合。将提取的全局上下文
                随 后 通 过 MLP 进 一 步 处 理 。 MLP 能 够 学 习 特           与 联 合 特 征 加 权 ,这 个 操 作 相 当 于 将 全 局 上 下
                征 间 的 复 杂 非 线 性 关 系 ,进 一 步 细 化 得 到 最 终          文 信 息 作 为 权 重 ,在 通 道 级 别 重 新 标 定 联 合 特
                的全局上下文特征。全局上下文特征提取可表                            征 ,强 调 有 用 的 特 征 部 分 ,抑 制 不 重 要 的 特 征
                示为:                                             部 分 。 在 此 基 础 上 ,将 上 下 文 信 息 与 输 入 的 特

                           F global = MLP( GAP( X ) )   (7)     征 相 加 融 合 ,得 到 分 类 和 回 归 预 测 的 特 征 图 。
                式中,F global 为全局上下文特征。                           该 特 征 图 融 合 了 局 部 特 征 、周 围 上 下 文 特 征 以
                    联合特征与全局上下文特征在特征表达上                          及 全 局 上 下 文 信 息 ,帮 助 模 型 更 准 确 地 定 位 和
                具有互补性。联合特征通过整合局部特征与其                            识别小目标人员。上下文信息融合可表示为:
                周 围 的 上 下 文 信 息 ,能 够 捕 捉 目 标 对 象 及 其 邻                      F context = F global ⋅ F joint + X  (8)
                近 环 境 的 细 节 ,适 合 用 于 小 目 标 对 象 的 局 部 特          式中,F context 为上下文信息融合后的特征。























                                                     图 3 上下文感知模块
                                                  Fig.  3 Context-Aware Module


                2 实验案例分析                                        测试集 2 243 张,共计 13 462 张图像。需要说明
                                                                的是,训练集和测试集的图像不存在重叠情况。
                2.1 数据集构建
                                                                    为了测试本文方法的泛化性和适用性,笔者
                    本 文 选 择 公 开 数 据 集 Manipal-UAV    [28] 进 行
                                                                团队在西南交通大学校园内不同场景和时间采
                方法效果对比。该数据集包括从两架在不同高
                                                                集 了 无 人 机 影 像 。 场 景 类 型 包 括 教 学 楼 、图 书
                度 、位 置 和 天 气 条 件 下 飞 行 的 无 人 机 收 集 的 数
                                                                馆、食堂、宿舍楼等人员密集的场景,确保本文方
                据,可用于研究无人机影像人员检测,包含来自
                                                                法对不同场景的适用性。此外,考虑到天气的影
                33 个视频的 13 462 张图像,具有 153 112 个目标,
                其中约 70% 属于小目标(小目标定义为分辨率小                        响,分别在不同时间段采集图像,获取明暗程度
                于 32×32 像素的目标)。该数据集划分为训练集                       各不相同的图像,以确保本文方法对于各种光线
                和测试集,其中训练集 9 113 张,验证集 2 106 张,                 的场景均具有较好的泛化性。
   54   55   56   57   58   59   60   61   62   63   64