Page 303 - 《软件学报》2025年第9期

P. 303

4214 软件学报 2025 年第 36 卷第 9 期


1
M
s
R i = [r ,...,r ,...,r ]
 i i i
 1 s M (11)
 B i = [b ,...,b ,...,b ]
i i i
s
其中, r 为图像中的区域, b =x,y,w,h 为该区域所对应的 4 维边界框.
s
i
i
p
s
对文本 S i 中的每个短语 , ICM 基于第 3.2 节中文本特征抽取步骤记录下的文本短语信息 T i , 利用匈牙利算
i
p
法 (Hungarian algorithm) [44] 从集合 R i 和 B i 选出与之最对齐的预测区域 r 和预测边界框 . PVG 任务的目标是准
p
b
i i
p p
确预测每个短语所对应的边界框, 因此, 本文的优化目标是最大化预测边界框 b 与真实边界框 g 的交并比 (IoU).
i
i
本文首先采用 TransVG 等方法 [20,27] p g 的重叠面积, 从而最大化
p
L box , 用以最大化
b 和
中常用的边界框损失, 记为
i i
IoU; 此外, 受 GLIP 的启发, 本文额外引入了一个对比对齐损失 L contrast , 用以确保 s 与集合 R i 中与 s 相对齐的区
p
[8]
p
i i
p p
域在特征空间中比不对齐的区域更接近. 具体而言, 对于短语 s , 该损失同样使用了 s 在文本中的起始位置, 用以
i
i
提取公式 (4) 中 F i 的文本特征 f l 对应位置的短语特征信息, 并使用该短语特征信息对齐目标检测所预测的区域,
使得匈牙利算法对齐出的预测边界框更接近真实边界框.
对于 L box , 本文使用 GIoU 损失 [45] 和 L1 损失来实现对预测结果的优化:

n ∑
( ) ( )
i ˆ i
i ˆ i
L box = λ giou L giou b ,b +λ L1 L L1 b ,b (12)
i=1

( ) ( )
i ˆ i
i ˆ i
L giou b ,b = 1−GIoU b ,b (13)

( )
i ˆ i
i ˆ i
(14)
L L1 b ,b =
b −b
1
在公式 (12) 中, n 为文本中的短语数量, b 为短语的预测边界框, b 为短语所对应的真实边界框. λ giou 和 λ L1 分
i
ˆ i
别是用以平衡 GIoU 损失和 L1 损失的超参数.
对于 L contrast , 本文将使用匈牙利算法选出的与待预测短语最对齐的预测区域作为对比学习中的正样本, 其余
N–1 个预测区域作为负样本, 如下所示:

exp s ·r /τ
n ∑ N ∑ ( i i )
+
L contrast = − log (15)
i
j
exp(s ·r /τ)
i=1 j=1
j
i
i
i
其中, n 为文本中的短语数量, N 为预测区域的数量, s 为当前待预测短语, r 为与 s 对齐的预测区域, r 为预测区
+
域集合中的区域, τ 为对比学习中的温度超参数.
本文使用上述两个损失函数联合优化 ICM 中的参数, 并引入超参数 λ contrast 来平衡 L contrast 的权重, 最终的损失
L total 如公式 (16) 所示:
函数

(16)
L total = L box +λ contrast L contrast

4 实验
本节描述了实验细节, 包括针对隐式场景构建的隐式数据集 (第 4.1 节), Baselines 方法 (第 4.2 节), 实验设置
及评价指标 (第 4.3 节), 实验结果对比 (第 4.4 节) 以及实验分析 (第 4.5 节).

4.1 隐式数据集构建
本文首先基于对 Flickr30k Entities 数据集 [46] 的分析, 通过预标注总结了如图 4 所示的 4 种主要隐式关系, 并
构建了一个面向隐式场景的数据集. 其中, 4 种隐式关系定义如下.
● 常识性理解表示模型需要理解短语中蕴含的具有常识性信息的深层语义, 例如: 为准确预测“支持 (support)”
所指向的区域, 模型需要理解“举着手”的动作是一种表示“支持”的常识.
● 上下文理解表示模型需要从文本的上下文信息中理解短语蕴含的深层语义信息, 例如: 在没有上下文信息
的情况下, “另外三个人 (three more people)”很难准确与“图像左下角的三个人”这一区域对应.
● 空间关系理解表示模型需要对空间关系进行有效建模, 例如: “在另一个男人的旁边 (next to another man)”
包含了两个男人之间的位置信息.

298 299 300 301 302 303 304 305 306 307 308