Page 162 - 《武汉大学学报(信息科学版)》2025年第9期
P. 162

1890                            武 汉 大 学 学 报  (信 息 科 学 版)                        2025 年 9 月

                SegFormer 骨干提取特征以获取全局上下文,显                       1 基本原理
                著提升了损伤分类效果。
                     现有的损伤评估方法主要通过特征交互以                          1.1 模型整体框架
                优 化 双 时 相 特 征 ,但 交 互 过 程 中 主 要 考 虑 特 征               本文提出的全局-局部特征融合和动态错误
                之 间 的 互 补 关 系 ,对 特 征 差 异 的 建 模 不 足 。 此           监督网络采用孪生网络架构,输入配对的双时相
                外,不同建筑物样本的难易程度有较大差异,现                            影像,最终输出损伤评估结果,其整体结构如图 1
                有 方 法 欠 缺 对 困 难 样 本 的 感 知 能 力 ,难 以 进 一           所示。网络可分为 4 个单元,编码阶段包含权重
                步提高模型效果。而在全局和局部特征结合方                             共享编码器和特征融合单元,解码阶段包含全局-
                面,现有方法仅使用卷积或自注意力中的一种,                            局部融合解码器和动态错误感知解码器。权重
                或 仅 在 网 络 的 某 一 特 定 位 置 使 用 自 注 意 力 ,未           共享编码器采用 ResNet-34 骨干,具有 5 个编码阶
                                                                 段 ,双 时 相 影 像 分 别 经 过 编 码 器 获 得 多 层 次 特
                能充分结合两种机制的优势。造成该问题的重
                                                                 征,权重共享能将双时相影像映射到同一特征空
                要 原 因 之 一 是 ,原 始 的 自 注 意 力 机 制 具 有 二 次
                                                                 间内,同时减少网络的计算量和参数量。特征融
                复杂度,内存和计算开销高昂,一些改进的自注
                                                                 合单元由差异增强融合模块组成,编码器产生的
                意 力 模 型 如 Swin Transformer  [27] 将 内 存 和 计 算
                                                                 双时相特征被送入特征融合单元内,增强双时相
                开 销 减 小 到 可 接 受 的 范 围 ,但 也 削 弱 了 全 局 特
                                                                 特征的差异并融合。全局-局部融合解码器位于
                征 提 取 能 力 。 相 比 之 下 ,状 态 空 间 模 型(state
                                                                 解码阶段的深层,由全局-局部特征融合模块组
                space models,SSM)具 有 线 性 复 杂 度 下 的 全 局
                                                                 成,特征融合单元产生的差异增强融合特征首先
                特征提取能力,近年来受到学者们的高度关注。
                                                                 被送入全局-局部融合解码器中,充分利用全局和
                文 献[28]改 进 了 原 始 的 SSM,提 出 了 选 择 性 扫
                                                                 局部特征提取高级语义信息。动态错误感知解
                描,并基于此构建了 Mamba 架构,该架构在多项
                                                                 码器位于解码阶段的中层和浅层,由跨层融合解
                自然语言处理任务中表现出优于经典自注意力
                                                                 码 模 块(cross-layer  fusion  and  decoding  module,
                模 型 的 效 果 ;文 献[29]将 选 择 性 扫 描 拓 展 到 图
                                                                 CFDM)组成,全局-局部融合解码器输出的特征
                像 ,提 出 了 二 维 选 择 性 扫 描(2D selective scan⁃
                                                                 被送入动态错误感知解码器中,以困难样本感知
                ning,SS2D),其 衍 生 的 模 型 在 自 然 图 像 和 遥 感
                                                                 的方式学习,通过两个子分支分别输出辅助的损
                影像处理任务       [30-31] 中取得了优异表现,显示出在
                                                                 伤评估和错误预测结果,将两个子分支末端跨层
                遥 感 领 域 的 巨 大 应 用 潜 力 。 因 此 ,有 必 要 考 虑
                                                                 融合解码模块输出的特征进行通道叠加,并通过
                使用 SSM 替代自注意力机制,以实现更加充分
                                                                 一个额外的跨层融合解码模块融合,输出最终的
                的全局特征提取。
                                                                 损伤评估结果。
                     综合以上分析,针对以往建筑物损伤评估模
                                                                 1.2 差异增强融合模块
                型特征差异建模不足、全局-局部特征利用不充分                               由于损伤评估任务需要深入挖掘影像的变
                以及困难样本感知能力缺乏等问题,提出了一种
                                                                 化特征,因此差异增强融合模块通过注意力的方
                基 于 全 局 -局 部 特 征 融 合 和 动 态 错 误 监 督 网 络
                                                                 式对双时相特征进行增强,放大有效差异,剔除
                (global-local  feature  fusion  and  dynamic  error  su⁃  伪 变 化 造 成 的 差 异 ,使 得 网 络 关 注 关 键 变 化 区
                pervision network,GLESNet)的遥感影像建筑物               域,过滤背景噪声引起的伪变化,如图 2 所示。将

                损伤评估方法。设计了差异增强融合模块(dif⁃                          编 码 器 获 得 的 双 时 相 特 征 分 别 记 为 F i 、
                                                                                                          pre
                ference  enhancement  fusion  module,DEFM),增       post  ∈ R  H i × W i × C i              i
                                                                 F i           ,(i=1,2,…,5),其中 H i = H/2 ,
                强双时相特征的差异;引入二维选择性扫描,将                            W i = W/2 , H 和 W 分别为输入影像的长和宽, C i
                                                                          i
                其以串联和并联两种方式与卷积相结合,构建全                            为 通 道 数 , C 1 = 64, C i = 2 i - 2 C 1,(i=2,3,4,5)。
                局-局部特征融合模块(global-local feature fusion           双时相特征相减并取绝对值获得差分特征 F i ,
                                                                                                          sub
                module,GLFFM),增强全局-局部特征的利用 ;                     其 通 道 注 意 力 特 征 为 Ac i ∈ R   1 × 1 × C i ,对 F i 和
                                                                                         sub
                                                                                                         pre
                                                                                                          pre
                通 过 动 态 错 误 感 知 解 码 器(dynamic error aware        F i post  也按相同的过程获取通道注意力特征 Ac i 、
                decoder,DEAD),动态监督感知错分区域,激发                      Ac i post ∈ R  1 × 1 × C i ,这 里 的 通 道 注 意 力 不 包 含 Sig⁃
                网络对困难样本的关注。各模块之间紧密配合,                            moid 函数。通道注意力特征 Ac 的计算式为:
                最终获得良好的损伤评估结果。                                     Ac = MLP( GAP( F ) )+ MLP( GMP( F ) )  (1)
   157   158   159   160   161   162   163   164   165   166   167