Page 58 - 《武汉大学学报(信息科学版)》2025年第6期
P. 58
1080 武 汉 大 学 学 报 (信 息 科 学 版) 2025 年 6 月
的平均值来降低特征图的细节度,有助于减少背 经 过 Sigmoid 激 活 操 作 ,得 到 最 终 的 通 道 注 意
景噪声对小目标人员的干扰。空间信息 聚 合 过 力 图 M c ,使 网 络 能 够 对 不 同 通 道 的 特 征 进 行
程 可 表 示 为 : 加 权 ,以 便 更 好 地 区 分 人 员 和 背 景 。 重 点 特
T
F ' h = Conv ( F h ) (1) 征 权 重 获 取 过 程 可 表 示 为 :
F max = MaxPool( F ' h ) (2) M c = σ ( MLP( F max )+ MLP( F avg ) ) (4)
F avg = AvgPool( F ' h ) (3) 式 中 , σ 表 示 Sigmoid 激 活 。
3)选 择 性 特 征 融 合 。 将 M c 与 低 层 特 征 加
式 中 , F ' h 为 经 过 转 置 卷 积 后 的 高 层 特 征 ;F max
为 最 大 池 化 特 征 ;F avg 为 平 均 池 化 特 征 ;Conv T 权 ,调 整 特 征 图 中 各 个 通 道 的 权 重 ,从 而 提 高
表 示 转 置 卷 积 操 作 ,MaxPool、AvgPool 分 别 表 网 络 对 小 目 标 人 员 的 关 注 度 并 抑 制 背 景 噪 声
示 最 大 池 化 操 作 、平 均 池 化 操 作 。 干 扰 ,得 到 加 权 的 低 层 特 征 。 在 此 基 础 上 ,将
2)重 点 特 征 权 重 获 取 。 将 两 个 池 化 特 征 加 权 的 低 层 特 征 与 统 一 大 小 后 的 高 层 特 征 相
输 入 包 含 隐 层 的 多 层 感 知 器(multilayer per‑ 加 融 合 ,使 其 能 够 更 好 地 融 合 高 层 语 义 和 低
ceptron,MLP)中 ,得 到 两 个 通 道 注 意 力 图 。 层 细 节 特 征 ,实 现 特 征 的 选 择 性 融 合 ,提 高 网
MLP 能 够 学 习 输 入 特 征 的 抽 象 表 示 ,并 且 通 络 对 于 前 景 与 背 景 信 息 的 判 别 能 力 。 选 择 性
过 引 入 隐 层 增 强 了 网 络 对 特 征 之 间 复 杂 关 系 特 征 融 合 过 程 可 表 示 为 :
的 建 模 能 力 。 同 时 ,将 两 个 通 道 注 意 力 图 相 F fused = M c ⋅ F l + F ' h (5)
加 ,融 合 两 个 池 化 特 征 的 通 道 注 意 力 信 息 ,并 式 中 ,F fused 为 融 合 后 的 特 征 ;⋅表 示 加 权 。
图 2 选择性特征融合模块
Fig. 2 Selective Feature Fusion Module
1.4 上下文感知 提取器 f global,用来丰富小目标的上下文特征,可有
在无人机影像中,小目标人员所占的像素较 效提升模型对于小目标特征的提取能力。
少,仅依靠小目标人员自身的特征难以实现准确 1)联 合 特 征 获 取 。 减 少 输 入 特 征 的 通 道
检测。同时,小目标人员附近区域能够提供有用 数 ,通 过 3×3 卷 积 以 小 感 受 野 的 遍 历 获 取 局 部
的上下文信息,有助于检测小目标人员。然而, 特 征 ,同 时 ,利 用 扩 张 卷 积 扩 大 感 受 野 ,有 效 地
现有的人员检测方法通常会忽略这些局部区域 学习小目标人员的周围上下文,在此基础上,将
之外的上下文特征。因此,本文设计了一个上下 局部特征与周围上下文特征进行融合以得到联
文感知模块,如图 3 所示,综合小目标人员周围的 合 特 征 ,连 接 操 作 将 小 目 标 人 员 局 部 特 征 和 周
环境信息,包括局部特征提取器 f local、周围上下文 围 上 下 文 特 征 结 合 起 来 ,形 成 一 个 综 合 的 特 征
提取器 f surround、联合特征提取器 f joint 和全局上下文 表示,联合后的特征通过批量归一化(batch nor‑