Page 456 - 《软件学报》2025年第10期

P. 456

孙锐等: 隐式多尺度对齐与交互的文本-图像行人重识别方法 4853

与第 3 层得到的 token 序列进行尺寸上的对齐. 融合的二维图像特征结果为 X 2 , 尺寸为 [H/8,W/8,4C], 既包含了
第 4 层准确的全局信息又包含了第 3 层较为丰富的局部信息.
接下来, 令 X 1 和 X 2 再进行一次交叉注意力操作, 对经过 Patch embedding 处理的 X 1 而得到的 token 序列需做
X 2 得到的 token V [H/8,W/8,4C], 包含了丰富的局部
降采样, 从而与序列进行对齐. 此次融合的结果为 X , 尺寸为
和全局信息, 更好进行跨模态交互.
2.3 多元交互注意力模块
为了学习图像和文本之间的对应关系, 实现准确地语义对齐, 我们设计了一个多元交互注意力模块来整合图
像和文本特征. 在这个模块中, 本文使用受多样性损失约束的多头注意 [23] 模块实现图像-文本对齐, 其中, Q 表示
Query, 用于查询相应的信息; K 和 V 分别是 Key 和 Value 的缩写, 作为键和值去匹配和获取相应的特征. 经过
MIA 的处理, 我们可以得到更好的图像-文本对齐效果. 如图 4 所示.

Patch embedding Linear

V V K V Q T Q V K T V T
Multi-head attention Multi-head attention

Add & Norm Add & Norm

Feed forward Feed forward

Add & Norm Add & Norm
图 4 多元交互注意力模块 MIA 结构图

2.3.1 多头注意模块
对于视觉模态, 我们把 SCFP 处理得到的图像特征 X ∈ R H/8,W/8,4C 作为输入, 利用 Patch embedding 将图像的三
V
维特征转换成一维序列矩阵 E, 如公式 (3) 所示. 接着, 通过线性投影计算出图像特征映射的 n 个 head 中的第 i 个
Q
中的 3 个向量 Q V 、K V 、V V , 如公式 (4) 所示, 其中, 可训练参数矩阵 W ,W ,W ∈ R d×d 分别代表一个线性层.
K
V
i i i

Q
K
Q i = E v ·W , K i = E v ·W , V i = E v ·W V i (4)
i
i
然后, 计算输入图像的第 i 个 head 的注意力权重矩阵 head i ∈ R (N+1)×(N+1) , 如公式 (5) 所示, 其中, d K 表示键 (K)
向量的维度, 决定了输入向量投影后的键的维度.

( )
Q i · K i
head i (Q,K,V) = Softmax √ ·V i (5)
d K
n 个 head 得到的注意力矩阵拼接到一起即完成多头注意力计算, 如公式 (6) 所示.
最后, 将

MHA(Q,K,V) = Concat(head 1 ,head 2 ,...,head n ) (6)
T
对于文本模态, 我们将文本编码器提取得到的文本特征 X ∈ R (L+1)×d 输入一个线形层, 得到 Q、K、V 矩阵, 如
公式 (7), 然后与图像共享相同参数的多头注意模块.

T
E t = Linear(X ) (7)
2.4 交叉注意力模块
在获得图像和文本的多头注意力矩阵后, 我们需要进行交叉注意力操作. 首先, 我们分别取文本编码得到的
Q t 矩阵与图像编码得到的 K v 、V v 进行注意力计算, 取图像编码得到的 Q v 矩阵与文本编码得到的 K t 、V t 进行注意
Attn v 、Attn t , 如公式 (8) 所示.
力计算, 得到注意力矩阵
Attn v = MHA(Q t ,K v ,V v ), Attn t = MHA(Q v ,K t ,V t ) (8)

451 452 453 454 455 456 457 458 459 460 461