Page 457 - 《软件学报》2025年第10期

P. 457

4854 软件学报 2025 年第 36 卷第 10 期

Attn v 、Attn t 后, 我们利用常规的注意力模块 (如 Add & Norm 和 Feed forward) 来融合跨模
在得到注意力矩阵
态信息. 具体而言, 我们使用文本信息作为查询矩阵 Q 对图像信息进行匹配加权操作, 使网络更加关注与文本所
提及的相关特征的图像区域, 从而实现图像和文本之间的语义对齐; 同时我们也可以使用图像信息作为查询矩阵
Q, 对文本信息进行匹配加权操作, 过滤文本中的非必要的信息, 将注意力集中在与图像相关的关键词上. 通过这
种跨模态交互操作, 我们能够更好地整合图像和文本信息, 利用它们之间的对应关系来获取更丰富的特征表示, 获
得更准确的语义对齐结果.
虽然图像和文本的模态不同, 但它们包含的语义信息相同. 因此, 我们认为在公共的语义空间中存在一组潜在
的语义中心, 其中包含了行人的语义信息, 并由不同模态共享. 本文提出的基于语义中心的多尺度对齐可自适应地
选择和聚合图像和文本特征到同一主题, 并获得多个多尺度对齐的图像和文本特征. 我们通过计算特征和中心点
之间的相似度, 将图像和文本特征分配给相应的语义中心. 同一行人的所有特征都向其所属的语义中心点聚集, 而
不同行人的特征之间相互推远. 如图 5 所示. 例如 ID A 中分组 1 和分组 2 中的特征会向所属的中心点聚集, 且
ID A 和 ID B 的语义中心点之间的距离会加大.

语义中心点
图/文特征映射

...
分组 2

分组 1 ...

ID A ID B ... ID C
图 5 基于语义中心的多尺度对齐示意图

2.5 损失函数设计

为了消除图像和文本的模态差距从而实现隐式语义对齐, 我们引入了跨模态投影匹配损失 L CMPM . 它将跨模
态投影结合到 KL 散度中, 将不同模态的表示关联起来. 该算法不需要传统的双向排序丢失的三重采样和边距选
择 [29] , 在不同批量大小的图像和文本关联中表现出很好的稳定性和优越性. 对于每个视觉表示 f , 我们假设图像-
v
i
{( ) } N ( )
v t v t
文本表示对的集合是 f , f ,y i,j , 其中, y i,j 是真实匹配的标签, y i,j = 1 表示 f , f 是来自同一身份的匹配对,
j
i
j=1 i j
y i,j = 0 表示非匹配对. f 和 f 是匹配对的概率可通过公式 (9) 计算.
t
v
i
j

v T ¯ t
exp((f ) f /τ) f t
i j ¯ t j
j
N v T ¯ t
p i,j = ∑ , f =

(9)
t
exp((f ) f /τ)
f
j
k=1 i k
¯ t
v
其中, τ 是控制概率分布峰值的温度超参数, f 表示标准化文本特征. 在几何上, ( f ) f 表示将图像特征 f 投影到
v T ¯ t
j i j i
( )
t v t 标量投影的百分比. 然后, 通过公式 (10) 可计算在小批量中从
文本特征 f 上, 且 p i,j 可视为小批量中的一对 f , f
j i j
图像到文本的 CMPM 损失.

( )
1 N ∑ N ∑ p i,j y i,j
v2t
L CMPM = p i,j log , q i,j = ∑ (10)
N q i,j +ε N
i=1 j=1 y i,k
k=1
其中, ε 是一个避免数值问题的小数字, N 表示小批量尺寸, q i,j 表示归一化的真实匹配概率. 上述过程在从图像到
文本单个方向上减小了每个视觉表示与其匹配的文本表示之间的距离, 并且我们反向进行类似的过程以将每个文
本表示与其匹配的视觉表示拉近. 对称地, 从文本到图像的 CMPM 损失通过在公式 (9)、(10) 中交换 f 和 f 来计
v
t
算. 因此, 双向 CMPM 损失通过公式 (11) 计算.

452 453 454 455 456 457 458 459 460 461 462