Page 302 - 《软件学报》2025年第9期
P. 302
赵嘉宁 等: 提升隐式场景下短语视觉定位的因果建模方法 4213
其中, ICM 的核心组成部分为隐式感知的因果注意力模块 (ICA), 用以缓解模型在建模隐式关系时会被浅层语义
所混淆的问题.
ICA 的核心思想如图 3 中的 implicit-aware causal attention module 所示. 在得到公式 (3) 的多模态的特征表示
X i ∈ R D×(N v +N l +2) 后, 本文首先将其输入到 fusion encoder 模块中得到多模态融合特征 F i :
1
1
2
N l
N v
F i = [f , f ,..., f , f CLS , f ,..., f , f SEP ] (4)
i v i v i v i l i l i l i l
| {z } | {z }
视觉特征 f v 文本特征 f l
已有的 PVG 方法大多基于 F i 直接进行区域边界框的预测, 但是 F i 中的特征信息并没有针对隐式关系进行有
效建模, 导致模型在预测具有隐式信息的短语所对应的区域边界框时结果会出现偏差. 本文提出的 ICM 方法基于
公式 (2) 的前门调整策略, 并使用注意力机制来对公式 (4) 得到的多模态融合特征 F i 实施该策略来消除混杂偏差,
F 进行采样, 并将其
从而有效建模隐式关系. 考虑到对所有的样本全部进行前向传播高昂的计算代价, 本文对 P 和
输入模型中来计算 P(B = b | do(P = p)). 此外, 本文引入了归一化加权几何平均 (NWGM) [41,42] 近似来实现公式 (2)
的目标:
P(B =b | do(P =p)) ≈ Softmax[g( ˆ F, ˆ P)]
(5)
∑
ˆ F = P(F = f | h(P))f (6)
f
∑
ˆ P = P(P = p | j(P))p (7)
p
其中, g(·) 是用于公式 (2) 中分布 P(B = b | P = p,F = f) 的参数化网络, 并使用 Softmax 将其归一化. 此外, ˆ F 和 ˆ P 分
别代表自采样 (self-sampling) 和交叉采样 (cross-sampling) 的估算值, f 和 p 是对应于变量 f 和 p 的嵌入式向量. 函
数 h(·) 和 j(·) 用来将输入的 P 转换为两个不同的可以被参数化为网络的查询集合.
实际上, ˆ F 和 ˆ P 是经典的注意力机制所计算的内容, 可以通过使用 Q-K-V 操作简单地表示为图 3 中的 self-
sampling attention 和 cross-sampling attention 模块, 因此, 自采样 ˆ F 和交叉采样 ˆ P 可以使用如下的公式表示:
( )
⊤
V F Softmax Q K F (a)
F
( ) (8)
ˆ F =
⊤ (b)
V C Softmax Q K C
C
( )
⊤
ˆ P = V C Softmax Q K C (9)
F
公式 (8) 和公式 (9) 分别代表自采样和交叉采样. 公式 (8) 的 (a) 计算了多模态融合特征 F 的 self-sampling
C 的 self-sampling attention. 在具体实现中, , ; V F 来
attention, (b) 计算了混杂因子 Q 来自 h(P) Q C 来自 j(P) K F 和
F
自当前输入的样本; K C 和 V C 来自训练集中的其他样本, 并作为从整个训练集压缩而来的全局词典. 具体而言, 我
们通过对训练集所有样本的嵌入 (如图像的 RoI 特征) 进行 K-means 聚类操作 [43] 来初始化这个词典.
基于公式 (5), (8) 和 (9), 我们可以实现公式 (2) 中的前门调整策略, 从而计算出 P→F→B 的因果效应, 得到的
输出如下所示:
1
1
2
N l
N v
O i = [o ,o ,...,o ,o CLS ,o ,...,o ,o SEP ] (10)
i v i v i v i l i l i l i l
| {z } | {z }
视觉特征 o v 文本特征 o l
F i O i 对隐式关系进行了有效建模, 用以
O i 的维度和 F i 完全一致, 可以直接进行区域边界框的预测. 相较于 ,
帮助模型准确预测图像中与具有深层语义的隐式短语相对齐的区域. 同时, 通过前门调整策略, O i 消除了 F i 中的
浅层语义所带来的混淆信息. 通过这种方式, 相较于已有的 PVG 方法, ICM 可以有效建模隐式短语-区域对齐关
系, 提升了模型多模态深层语义理解的能力.
3.4 隐式感知的优化模块
在进行边界框预测时, ICM 首先将 O i 输入图 3 中的 fusion decoder 中, 得到一个包含 M 个区域和 M 个边界框
的预测集合:

