Page 301 - 《软件学报》2025年第9期

P. 301

4212 软件学报 2025 年第 36 卷第 9 期

Encoding block Implicit-aware causal attention module Implicit-aware optimization
1 Nv CLS 1 N l SEP Fusion decoder
Conv ReLU Pooling o i v ... o i v o i l o i l ... o i v o i l
1 Implicit-aware causal attention block
1×1 p i v 1...M 1...M
r i b i
2
p i v
1 Nv CLS 1 N l SEP
Feature ... f i v ... f i v f i l f i l ... f i v f i l Hungarian algorithm
map T i
Nv
Fusion encoder
p i v
The i-th image V i
1...n 1...n
CLS
p i l r i b i
Implicit-aware causal attention block
Positional embedding
1 T i
p i l
Image encoder f i v 1...N v f i v CLS...SEP C i (from global dict)
,
2
p i l  contrast  box
Self-sampling Cross-sampling
...
... attention attention
S [CLS] S Man S and S sign S [SEP]
N l
p i l Cross-sampling Self-sampling
attention attention
trm trm ... trm p i l SEP
Concatenate & Feedforward
trm trm ... trm X i w
f i ′ C i ′ f i ′′ C i ′′
E [CLS] E Man E and ... E sign E [SEP] t i 1 Support (x, y) h
... Q F K F V F Q C K C V C Q F K C V C Q F K C V C
p ...
t i
...
n
t i
f i C i f i C i
The i-th sentence S i
Sentence encoder T i Self-sampling attention Cross-sampling attention
图 3 隐式增强的因果建模短语视觉定位方法 (ICM) 整体网络结构图

3.2 图像-文本特征编码模块
(1) 图像特征编码
V i ∈ R 3×H 0 ×W 0 , 本文使用在计算机视觉领域有广泛应用的 ResNet 神经网络 [38] 作为基础视觉模型
对给定的图像

来提取每张图像 V i 的 2D 特征图 V 0 ∈ R D×H×W , 其中通道维度 D 为 2 048, 特征图的高度 H 和宽度 W 分别为初始高
D v = 256. 接着, 将特征图扁
度 H 0 和初始宽度为 W 0 的 1/32. 然后, 本文使用一个 1×1 的卷积层将通道维度 D 降为
[7]
V i ∈ R Dv×Nv N v = H ×W. 为了保存原始 2D 特征图的空间信息, 本文遵循 MDETR 的
平化得到最终的特征图 , 其中
设定, 将位置编码添加到 V i 中, 如图 3 所示.
(2) 文本特征编码
传统的文本特征是通过 GloVe embedding [39] 对文本中的每个单词进行表示. 随着预训练语言模型在 NLP 领域
的大规模应用, 本文采用预训练的 RoBERTa-base [40] 模型来提取文本特征. 相较于使用 GloVe 获得的 300 维的文
本特征向量, 本文采用 RoBERTa-base 模型得到 768 维的文本特征向量 L i ∈ R D l ×(N l +2) , 其中 D l = 768 N l 为文本长
,
度, 2 为在编码文本时在文本的头部和尾部添加的两个 token [CLS] 和 [SEP] 的长度. 在文本特征提取的过程中, 本
t p ,
文根据数据集中已标注的信息, 记录下文本中短语的起始位置以及该短语在图像中所对应的区域边界框, 记为
最终得到 T i =[t 1 ,...,t p ,...,t n ], 其中 n 为文本中短语的个数, 如图 3 所示.
R 中, 投影后的视觉特征
D
在得到图像特征和文本特征后, 我们采用两个全连接层将其映射到同一个特征空间

和文本特征分别为 p i v , p i l . 将 p i v 和 p i l 进行拼接得到多模态的特征表示 X i :

1
1
2
X i = [p , p ,..., p , p CLS , p ,..., p , p SEP ] (3)
N l
N v
i v i v i v i l i l i l i l
| {z } | {z }
视觉特征 p v 文本特征 p l

3.3 隐式感知的因果注意力模块 (ICA)
图 1(c), (d) 中, 相较于“标语 (a sign)”“彩虹旗 (rainbow flags)”这些具有浅层语义的短语, “支持 (support)”这类
短语的语义较深并且稀疏, 需要模型进一步理解深层语义才能将其与“人们举着手的动作”这一常识性区域相对齐.
虽然已有的 PVG 方法取得了不错的进展, 但是它们普遍忽略了类似“支持 (support)”的隐式短语-区域对齐关系问
题. 基于此, 本文提出了一种隐式增强的因果建模短语视觉定位方法 (ICM) 来有效建模短语-区域间的隐式关系.

296 297 298 299 300 301 302 303 304 305 306